python使用scrapy爬取图片

689次阅读

没有评论

在前面的章节中都介绍了scrapy如何爬取网页数据，今天介绍下如何爬取图片。

下载图片需要用到ImagesPipeline这个类，首先介绍下工作流程：

1 首先需要在一个爬虫中，获取到图片的url并存储起来。也是就是我们项目中test_spider.py中testSpider类的功能

2 项目从爬虫返回，进入到项目通道也就是pipelines中

3 在通道中，在第一步中获取到的图片url将被scrapy的调度器和下载器安排下载。

4 下载完成后，将返回一组列表，包括下载路径，源抓取地址和图片的校验码

大致的过程就以上4步，那么我们来看下代码如何具体实现

1 首先在settings.py中设置下载通道，下载路径以下载参数

ITEM_PIPELINES = {

# 'test1.pipelines.Test1Pipeline': 300,

'scrapy.pipelines.images.ImagesPipeline':1,

}

IMAGES_STORE ='E:\\scrapy_project\\test1\\image'

IMAGES_EXPIRES = 90

IMAGES_MIN_HEIGHT = 100

IMAGES_MIN_WIDTH = 100

其中IMAGES_STORE是设置的是图片保存的路径。IMAGES_EXPIRES是设置的项目保存的最长时间。IMAGES_MIN_HEIGHT和IMAGES_MIN_WIDTH是设置的图片尺寸大小

2 设置完成后，我们就开始写爬虫程序，也就是第一步获取到图片的URL。我们以http://699pic.com/people.html网站图片为例。中文名称为摄图网。里面有各种摄影图片。我们首先来看下网页结构。图片的地址都保存在

<div class=“swipeboxex”><div class=”list”><a><image>中的属性data-original

python使用scrapy爬取图片

首先在item.py中定义如下几个结构体

python使用scrapy爬取图片

根据这个网页结构，在test_spider.py文件中的代码如下。在items中保存了

python使用scrapy爬取图片

3 在第二步中获取到了图片url后，下面就要进入pipeline管道。进入pipeline.py。首先引入ImagesPipeline

from scrapy.pipelines.imagesimport ImagesPipeline

然后只需要将Test1Pipeline继承自ImagesPipeline就可以了。里面可以不用写任意代码

class Test1Pipeline(ImagesPipeline):

pass

ImagesPipeline中主要介绍2个函数。get_media_requests和item_completed.我们来看下代码的实现：

def get_media_requests(self, item, info):

return [Request(x)for xin item.get(self.images_urls_field, [])]

从代码中可以看到get_meida)_requests是从管道中取出图片的url并调用request函数去获取这个url

Item_completed函数

def item_completed(self, results, item, info):

if isinstance(item,dict)or self.images_result_fieldin item.fields:

item[self.images_result_field] = [xfor ok, xin resultsif ok]

return item

当下载完了图片后，将图片的路径以及网址，校验码保存在item中

下面运行代码，这里贴出log中的运行日志：

2017-06-09 22:38:17 [scrapy] INFO: Scrapy 1.1.0 started (bot: test1)

2017-06-09 22:38:17 [scrapy] INFO: Overridden settings: {'NEWSPIDER_MODULE': 'test1.spiders', 'IMAGES_MIN_HEIGHT': 100, 'SPIDER_MODULES': ['test1.spiders'], 'BOT_NAME': 'test1', 'USER_AGENT': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36', 'LOG_FILE': 'log', 'IMAGES_MIN_WIDTH': 100}

2017-06-09 22:38:18 [scrapy] INFO: Enabled extensions:

['scrapy.extensions.logstats.LogStats',

'scrapy.extensions.telnet.TelnetConsole',

'scrapy.extensions.corestats.CoreStats']

2017-06-09 22:38:18 [scrapy] INFO: Enabled downloader middlewares:

['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',

'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',

'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',

'scrapy.downloadermiddlewares.retry.RetryMiddleware',

'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',

'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',

'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',

'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',

'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',

'scrapy.downloadermiddlewares.chunked.ChunkedTransferMiddleware',

'scrapy.downloadermiddlewares.stats.DownloaderStats']

2017-06-09 22:38:18 [scrapy] INFO: Enabled spider middlewares:

['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',

'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',

'scrapy.spidermiddlewares.referer.RefererMiddleware',

'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',

'scrapy.spidermiddlewares.depth.DepthMiddleware']

2017-06-09 22:38:19 [scrapy] INFO: Enabled item pipelines:

['scrapy.pipelines.images.ImagesPipeline']

2017-06-09 22:38:19 [scrapy] INFO: Spider opened

2017-06-09 22:38:19 [scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)

2017-06-09 22:38:19 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023

2017-06-09 22:38:19 [scrapy] DEBUG: Crawled (200) (referer: None)

2017-06-09 22:38:19 [scrapy] DEBUG: File (downloaded): Downloaded file from referred in