Scrapy爬虫遇到的问题

859次阅读
没有评论

今天做python爬虫时,之前可以爬取的网站网址显示:

Scrapy爬虫遇到的问题

爬取内容为空。

Scrapy爬虫遇到的问题

 依次查找问题:

(1)INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)

报错提示Scrapy爬虫没有任何数据返回,需要修改settings.py设置文件中的ROBOTST_OBEY,将其默认值True改为False。

(2)[scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (302)

检查代码是,已经使用了 User-Agent,并且源连接直接在浏览器打开并不跳转,使用requests测试,发现并没有被重定向。搜索很久无果,然后开始检查 [scrapy.downloadermiddlewares.redirect] DEBUG,检查完并没有配置与这个相关的(DEFAULT_REQUEST_HEADERS)。

(3)[scrapy.core.engine] DEBUG: Crawled (403)

我将我要爬取的网址直接在浏览器输入,发现无法直接打开,页面显示如下:

Scrapy爬虫遇到的问题

原来网址已经失效了,结合重定向的问题试着配置DEFAULT_REQUEST_HEADERS,最终修改settings.py设置文件如下: 

Scrapy爬虫遇到的问题

 并开启注释,COOKIES_ENABLED=False

Scrapy爬虫遇到的问题

 此时,在控制台再次运行代码,代码正常运行。

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

相关文章:

版权声明:Python教程2022-10-25发表,共计596字。
新手QQ群:570568346,欢迎进群讨论 Python51学习