今天做python爬虫时,之前可以爬取的网站网址显示:
爬取内容为空。
依次查找问题:
(1)INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
报错提示Scrapy爬虫没有任何数据返回,需要修改settings.py设置文件中的ROBOTST_OBEY,将其默认值True改为False。
(2)[scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (302)
检查代码是,已经使用了 User-Agent,并且源连接直接在浏览器打开并不跳转,使用requests测试,发现并没有被重定向。搜索很久无果,然后开始检查 [scrapy.downloadermiddlewares.redirect] DEBUG,检查完并没有配置与这个相关的(DEFAULT_REQUEST_HEADERS)。
(3)[scrapy.core.engine] DEBUG: Crawled (403)
我将我要爬取的网址直接在浏览器输入,发现无法直接打开,页面显示如下:
原来网址已经失效了,结合重定向的问题试着配置DEFAULT_REQUEST_HEADERS,最终修改settings.py设置文件如下:
并开启注释,COOKIES_ENABLED=False
此时,在控制台再次运行代码,代码正常运行。
神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试