python多页爬取page

972次阅读

对于一个网站的图片、文字音视频等，如果我们一个个的下载，不仅浪费时间，而且很容易出错。Python爬虫帮助我们获取需要的数据，这个数据是可以快速批量的获取。本文小编带领大家通过python爬虫获取获取总页数并更改url的方法，实现爬取同一个网站的多页数据。

一、爬虫的目的

从网上获取对你有需要的数据

二、爬虫过程

1、获取url(网址)。

2、发出请求，获得响应。

3、提取数据。

4、保存数据。

三、爬虫功能

可以快速批量的获取想要的数据，不用手动的一个个下载(图片、文字音视频等)

四、使用python爬虫爬取同一网站多页数据

1、需要定位至该标签并获得总页数

def get_page_size(soup):

pcxt=soup.find('div',{'class':'babynames-term-articles'}).find('nav')

pcxt1=pcxt.find('div',{'class':'nav-links'}).findAll('a')

for i in pcxt1[:-1]:

link=i.get('href')

s=str(i)

page=re.sub('','',page1)

page3=re.sub('','',page2)

pagesize=int(page3)

print(pagesize)

return pagesize

Pass

2、更改url来访问网址，也就是进行主函数的编写

if __name__ == '__main__':

url="http://www.sheknows.com/baby-names/browse/a/"

soup=get_requests(url)

page=get_page_size(soup)

for i in range(1,page+1):

url1=url+"page/"+str(i)+"/"

soup1=get_requests(url1)

draw_base_list(soup1)

实例扩展：

import requests

from lxml import etree

import re

url="https://movie.douban.com/top250"

header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}

allMovieList=[]

flag = True

while flag:

html = requests.get(url, headers=header).text

list = etree.HTML(html)

lis = list.xpath('//ol[@class="grid_view"]/li')

for oneSelector in lis:

name = oneSelector.xpath("div/div[2]/div[1]/a/span[1]/text()")[0]

score = oneSelector.xpath("div/div[2]/div[2]/div/span[2]/text()")[0]

people = oneSelector.xpath("div/div[2]/div[2]/div/span[4]/text()")[0]

people = re.findall("(.*?)人评价",people)[0]

oneMovieList = [name,score,people]

allMovieList.append(oneMovieList)

#获取下一页地址

try:

next_url = list.xpath('//span[@class="next"]/a/@href')[0]

if next_url:

url = "https://movie.douban.com/top250"+ next_url

except:

flag = False

print(allMovieList)

到此这篇关于python爬虫实现爬取同一个网站的多页数据的实例讲解的文章就介绍到这了,更多相关python爬虫如何实现爬取同一个网站的多页数据内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-25

# Python爬虫

复制链接

赏

python多页爬取page

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置