scrapy 爬取顺序每次都不一样

712次阅读

##问题：爬取内容时输出的字典顺序每次运行时都不一样

###scrapy官方文档:
Scrapy at a glance,

文档原文说道：
scrapy

异步处理请求，也就是说Scrapy发送请求之后，不会等待这个请求的响应（也就是不会阻塞），而是可以同时发送其他请求或者做别的事情。而我们知道服务器对于请求的响应是由很多方面的因素影响的，如猫之良品所说的网络速度、解析速度、资源抢占等等，其响应的顺序是难以预测的。

Scrapy异步的根源，在于它依赖于**[Twisted]**(http://twistedmatrix.com/trac/)框架。Twisted框架是一个Python的event-driven的框架，这里你可以理解为是异步I/O的。

假如要保证顺序，则应该使用同步I/O的工具。如果需要在Scrapy内解决这个问题，可以参考这篇回答：
[Scrapy Crawl URLs in Order](https://stackoverflow.com/questions/6566322/scrapy-crawl-urls-in-order)

题主如果对于多线程和同步异步I/O不了解，可以参考：
[高性能IO模型浅析](https://www.cnblogs.com/fanzhidongyzby/p/4098546.html)
[asynchronous vs non-blocking](https://stackoverflow.com/questions/2625493/asynchronous-vs-non-blocking)

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-25

# Python爬虫

复制链接

赏

scrapy 爬取顺序每次都不一样

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置