爬虫|如何在scrapy请求异常之后再设置代理IP

705次阅读

没有评论

我们都知道 scrapy 可以设置代理 IP，但是不知道大家有没有遇到这样一个场景：

常规的代理IP设置，会对每个请求都生效，也就是说每个请求都会去使用代理

但是有些请求根本不需要代理，我希望当我的请求出现错误或超时的时候再去设置代理IP

这样既节省了资源，又缩短了请求的时间，毕竟有些代理质量真的一言难尽

那么怎么才能让它请求超时的时候，再使用代理IP进行重新请求呢？

很容易就想到下载中间件，DowmloaderMiddleware

一个介于request, response中间的钩子,用于修改request和处理response

首先我们需要捕获超时等异常的请求，在下载中间件中添加如下代码：

from twisted.internet.error import TCPTimedOutError, TimeoutError

def process_exception(self, request, exception, spider): if isinstance(exception, TimeoutError): self.process_request_back(request, spider) # 连接超时才启用代理ip机制 return request

elif isinstance(exception, TCPTimedOutError): self.process_request_back(request, spider) return request

以上代码的作用就是捕获异常请求，同时调用设置代理IP的函数，并返回该请求

下面的设置IP的代码

def process_request_back(self, request, spider): request.meta["proxy"] = xun.proxy request.headers["Proxy-Authorization"] = xun.headers

注意不能使用 process_request() 方法, 如果代理添加在该方法下，就是常规的代理IP方法

同时对于 scrapy 出现 TimeoutError，TCPTimedOutError等异常的时候，还可以通过以下几种方案来解决：

主要通过设置文件来更改

CONCURRENT_REQUESTS = 5

DOWNLOAD_TIMEOUT = 300

RETRY_TIMES = 5

第四种就是开头所讲的，在请求超时后再添加代理IP

你学废了吗?

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-25

# Python爬虫

复制链接

赏

爬虫|如何在scrapy请求异常之后再设置代理IP

1、降低同时请求的数量

2、增加超时时间

3、增加异常重试次数

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置

爬虫|如何在scrapy请求异常之后再设置代理IP

1、降低同时请求的数量

2、 增加超时时间

3、 增加异常重试次数

相关文章：

2、增加超时时间

3、增加异常重试次数