Python爬虫编程思想（153）：使用Scrapy抓取数据，抓取多个Url

597次阅读

在前面的案例中都是只抓取了一个Url对应的页面，但在实际应用中，通常需要抓取多个Url，在爬虫类的start_urls变量中添加多个Url，运行爬虫时就会抓取start_urls变量中所有的Url。下面的代码在start_urls变量中添加了2个Url，运行MultiUrlSpider爬虫后，就会抓取这两个Url对应的页面。

class MultiUrlSpider(scrapy.Spider): name = ‘MultiUrlSpider’ start_urls = [ ‘https://www.jd.com’, ‘https://www.taobao.com’ ] … …

下面的例子通过一个文本文件（urls.txt）提供多个Url，并在爬虫类中读取urls.txt文件中的内容，然后将读取的多个Url存入start_urls变量中。最后会抓取urls.txt文件中所有的Url对应的页面，并输出页面的博文数（本例提供的Url是geekori.com的博文列表页面，如果读者使用其他的Url，需要修改分析页面的逻辑代码）。

import scrapy class MultiUrlSpider(scrapy.Spider): name = ‘Mult

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-25

# Python爬虫

复制链接

赏

Python爬虫编程思想（153）：使用Scrapy抓取数据，抓取多个Url

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置