python 网络爬虫之下载图片学习心得

566次阅读

爬取斗图表情包为例：

这是一个单线程的爬取下载图片的代码

import requests from lxml import etree from urllib import request import re

HEADERS = { 'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Mobile Safari/537.36' } def parse_page(url): #解析网页，并下载保存 response = requests.get(url=url,headers=HEADERS) text = response.text html = etree.HTML(text) a_s = html.xpath("//div[@class='page-content text-center']//a[@class='col-xs-6 col-sm-3']") for a in a_s: #解析图片的url img_url = a.xpath(".//img/@data-original")[0] #得到图片的名字 alt = a.xpath(".//img/@alt")[0] alt = re.sub(r'[?？.。！!*@]','',alt) file_name = alt+'.jpg' #下载并保存图片 request.urlretrieve(url=img_url,filename='images/'+file_name) print(file_name+" 下载完成 ") def main(): #用for循环构建page_url for i in range(1,101): url = 'https://www.doutula.com/photo/list/?page=%d' %i parse_page(url)

if __name__ == '__main__': main()

学习心得：

1，总体思路：

分析网页的URL：第一页：https://www.doutula.com/photo/list/?page=1 第二页：https://www.doutula.com/photo/list/?page=2 改变的只有page =? 用for循环构建 page_url

从每一个大的page_url 中提取每一张图片的 img_url，，和图片名字 file_name

下载图片用python自带的urllib库中的request.urlretrive() 方法下载每一张图片

2， file_name

在得到图片名称时，因为包含非法字符所以使用正则表达式中的sub（）函数提换为空。

3, 下载图片

用python自带的urllib库中的request.urlretrive() 方法下载每一张图片

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-24

# Python爬虫

复制链接

赏

python 网络爬虫之下载图片学习心得

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置

python 网络爬虫之下载图片 学习心得

相关文章：

python 网络爬虫之下载图片学习心得