十行代码开启scarpy多网站爬虫时代

592次阅读

没有评论

不就是同时启动多个爬虫程序吗？

文章里这么多大神搞这么复杂干嘛？

简单事情复杂化干嘛？

第一步：设置好多个爬虫程序

这是第一个test_1.py文件

import scrapy

class XiachufangSpider(scrapy.Spider): name = 'test_1' start_urls = ['http://www.qingnian8.com/']

def parse(self, response, **kwargs): url = response.xpath('/html/body/div[2]/div[3]/div[1]/div[1]/div[2]/ul/li[2]/a//text()').extract() print(url)

这是第二个test_2.py文件

import scrapy

class XiachufangSpider(scrapy.Spider): name = 'test_2' start_urls = ['http://www.qingnian8.com/']

def parse(self, response, **kwargs): url = response.xpath('/html/body/div[2]/div[3]/div[1]/div[1]/div[2]/ul/li[12]/a//text()').extract() print(url)

然后再main.py启动文件中输入以下代码，这么简单，就自己看吧

from scrapy.crawler import CrawlerProcess from scrapy.utils.project import get_project_settings

# 在Scrapy框架内控制爬虫 if __name__ == "__main__": process = CrawlerProcess(get_project_settings())

process.crawl("zhihu")

process.crawl("test_1")

print('—–爬虫启动—–') process.start() process.start()

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-25

# Python爬虫

复制链接

赏

十行代码开启scarpy多网站爬虫时代

第一步：设置好多个爬虫程序

就这么简单就能启动多个爬虫程序了，不知道为什么这么多大神非要搞这么复杂。。查了我半天资料，原来就十行代码的事情

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置