使用Python爬虫实现自动下载图片

1,068次阅读

使用Python爬虫实现自动下载图片

python爬虫支持模块多、代码简洁、开发效率高，是我们进行网络爬虫可以选取的好工具。对于一个个的爬取下载，势必会消耗我们大量的时间，使用Python爬虫就可以解决这个问题，即可以实现自动下载。本文向大家介绍python爬虫的实战练习之进行自动下载图片的爬取过程。

一、自动下载图片流程

1、总结网址规律，以便根据网址访问网页；

2、根据网址规律，循环爬取并返回网页；

3、利用正则表达式提取并返回图片。

二、使用Python爬虫实现自动下载图片步骤

1、导入相关包

import requests
import importlib
import urllib
import re
import os
import sys
importlib.reload(sys)

2、定义网页访问函数

cookie获得方式：正常访问此页面，鼠标右键检查或F12-在Network处查看自己的cookie，由于cookie很长且每个用户的cookie不同，故代码中将cookie省略了，读者可查看自己浏览器的cookie，将其加入代码中。

def askURL(url):
    head = {   
        "Accept": "image/webp,image/apng,image/*,*/*;q=0.8",
        "Accept-Language": "zh-CN,zh;q=0.9",
        "Connection": "keep-alive",
        "Cookie": " ",
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/
        71.0.3578.98 Safari/537.36"
    }
    s = quote(url, safe=string.printable)    # 中文转utf8字符，否则会报ascii错
    print(s)
    request = urllib.request.Request(s, headers=head)
    html = ""
    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode("utf-8")
        print(html)
    except urllib.error.URLError as e:
        if hasattr(e, "code"):
            print(e.code)
        if hasattr(e, "reason"):
            print(e.reason)
    return html

3、提取图片并返回

根据返回的html网页可以看到，网页中包含图片的url共有四种类型，分别是objURL、middleURL、hoverURL和thumbURL，故利用正则表达式返回四种类型的链接并合并。

i = 1

def savePic(url):
    global i  # 
    html = askURL(url)
    pic_url = re.findall('"objURL":"(.*?)",', html, re.S)  # re.S表示让换行符包含在字符中
    pic_url2 = re.findall('"middleURL":"(.*?)",', html, re.S)
    pic_url3 = re.findall('"hoverURL":"(.*?)",', html, re.S)
    pic_url4 = re.findall('"thumbURL":"(.*?)",', html, re.S)
    result = pic_url2 + pic_url + pic_url4 + pic_url3

    for item in result:
        print("已下载" + str(i) + "张图片")
        # 定义异常控制
        try:
            pic = requests.get(item, timeout=5)
        except Exception:  
            print("当前图片无法下载")
            continue 

        #  保存图片
        string = 'D:/MyData/Python爬虫/图片/'+word+"/"+str(i)+".jpg"
        fp = open(string, 'wb')
        fp.write(pic.content)
        fp.close()
        i += 1

4、定义主函数

if __name__ == '__main__':  # 主程序
    word = input("请输入想要下载的图片:")

    #  根据搜索的关键字判断存放该类别的文件夹是否存在,不存在则创建
    road = "D:/MyData/Python爬虫/图片下载器/" + word
    if not os.path.exists(road):
        os.mkdir(road)

    #  根据输入的内容构建url列表，此处只访问了四页验证效果
    urls = [
        'https://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&word='
        + word '.format(str(i)) for i in range(0, 40, 10)]

    for url in urls:
        print(url)
        downloadPic(url)

    print("下载完成!")

以上就是使用Python爬虫实现自动下载图片的过程，大家可以尝试练习一下哦~ 。

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2021-07-18

复制链接

赏

使用Python爬虫实现自动下载图片

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置

静态代理IP怎么填写：步骤与示例

在线代理服务器的使用与推荐

国外代理服务器的优势及选择建议

海外静态IP的代理选择与配置

HTTP代理服务器的设置及应用实例

什么是代理服务器IP：如何选择合适的

Socks5代理配置教程及注意事项

动态与静态代理IP的区别解析

如何找到可靠的免费代理服务器

什么是Socks5代理IP及其优势