scapy递归爬

526次阅读

前面介绍了Scrapy如何实现一个最简单的爬虫，但是这个Demo里只是对一个页面进行了抓取。在实际应用中，爬虫一个重要功能是”发现新页面”，然后递归的让爬取操作进行下去。

发现新页面的方法很简单，我们首先定义一个爬虫的入口URL地址，比如《Scrapy入门教程》中的start_urls，爬虫首先将这个页面的内容抓取之后，解析其内容，将所有的链接地址提取出来。这个提取的过程是很简单的，通过一个html解析库，将这样的节点内容提取出来，href参数的值就是一个新页面的URL。获取这个URL值之后，将其加入到任务队列中，爬虫不断的从队列中取URL即可。这样，只需要为爬虫定义一个入口的URL，那么爬虫就能够自动的爬取到指定网站的绝大多数页面。

当然，在具体的实现中，我们还需要对提取的URL做进一步处理:

1. 判断URL指向网站的域名，如果指向的是外部网站，那么可以将其丢弃
2. URL去重，可以将所有爬取过的URL存入数据库中，然后查询新提取的URL在数据库中是否存在，如果存在的话，当然就无需再去爬取了。

下面介绍一下如何在Scrapy中完成上述这样的功能。

我们只需要改写spider的那个py文件即可，修改parse()方法代码如下：

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

from scrapy.selector import HtmlXPathSelector

def parse(self, response): hxs = HtmlXPathSelector(response) items = []

newurls = hxs.select('//a/@href').extract() validurls = [] for url in newurls: #判断URL是否合法 if true: validurls.append(url)

items.extend([self.make_requests_from_url(url).replace(callback=self.parse) for url in validurls])

sites = hxs.select('//ul/li') items = [] for site in sites: item = DmozItem() item['title'] = site.select('a/text()').extract() item['link'] = site.select('a/@href').extract() item['desc'] = site.select('text()').extract() items.append(item)

return items

原创文章,转载请注明：转载自CodeLogic[http://www.icodelogic.com]
本文链接地址:http://www.icodelogic.com/?p=459

tags:Python、Scrapy、爬虫

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-25

# Python爬虫

复制链接

赏

scapy递归爬

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置