目录
前言
函数介绍
库函数介绍
函数1
函数2
函数3
主函数
完整代码
总结
前言
本次写的爬虫程序是爬取网站上的图片,所用的网站请详见代码。
函数介绍
主要是通过对网站上内容进行解析提取,从而获取到图片所对应的下载链接,从而实现批量下载,其他网站图片爬取方法类似。
库函数介绍
import re#解析接收到的网页源码 import requests#发送网页请求
引入库函数,没有的小伙伴可以进行下载。
下载方法1:windows下>cmd>输入:pip install requests/pip install re
下载方法2:pycharm>setting>project:文档名称
函数1
def http_s(baseurl): for i in range(0,30):#爬取第一到第30页,可更改 url=baseurl+str(i) # print(url) getphoto(url)#解析函数中传入网址,开始解析爬取图片
解析函数中传入网址,开始解析爬取图片
函数2
def getphoto(url): #headers封装 headers={ "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36 Edg/100.0.1185.44" } #网站访问 response=requests.get(url,headers=headers) # print(response.text) html_re=response.text
#解析数据 link=re.compile(r'<img fifu-featured="1" width="520" src="(.*?)"',re.S) link_w=re.findall(link,html_re) #向图片链接进行访问 for img in link_w: #图片名字 img_name=img.split('/')[-1]#将网页进行拆分,拿出图片名 # print(img_name) img_data=requests.get(img).content#获取数据 # print(img_data) #保存数据 with open(f'img/{img_name}',mode='wb') as f:#注意需要手动新建一个img文件夹,不然会出现报错 f.write(img_data) print("正在爬取",img_name) 解析函数,进行网页解析,图片保存。
主函数
#主函数调用 if __import__(__name__): main()
完整代码
import re#解析接收到的网页源码 import requests#发送网页请求 def main(): baseurl = "https://www.kanxiaojiejie.com/page/" http_s(baseurl) #用来生成网站地址 def http_s(baseurl): for i in range(0,30):#爬取第一到第30页,可更改 url=baseurl+str(i) # print(url) getphoto(url)#解析函数中传入网址,开始解析爬取图片 #解析函数,进行网页解析 def getphoto(url): #headers封装 headers={ "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.127 Safari/537.36 Edg/100.0.1185.44" } #网站访问 response=requests.get(url,headers=headers) # print(response.text) html_re=response.text
#解析数据 link=re.compile(r'<img fifu-featured="1" width="520" src="(.*?)"',re.S) link_w=re.findall(link,html_re) #向图片链接进行访问 for img in link_w: #图片名字 img_name=img.split('/')[-1]#将网页进行拆分,拿出图片名 # print(img_name) img_data=requests.get(img).content#获取数据 # print(img_data) #保存数据 with open(f'img/{img_name}',mode='wb') as f:#注意需要手动新建一个img文件夹,不然会出现报错 f.write(img_data) print("正在爬取",img_name) #主函数调用 if __import__(__name__): main()
函数功能介绍
总结
本次的小爬虫主要是爬取的网站上公开的图片,进行下载保存,喜欢的小伙伴点个赞吧!
神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试