Python【爬虫实战】一起一步步分析亚马逊的反爬虫机制

859次阅读

没有评论

亚马逊是全球最大的购物平台

很多商品信息、用户评价等等都是最丰富的。

今天，手把手带大家，越过亚马逊的反爬虫机制

爬取你想要的商品、评论等等有用信息

Python【爬虫实战】一起一步步分析亚马逊的反爬虫机制

但是，我们想用爬虫来爬取相关的数据信息时

像亚马逊、TBao、JD这些大型的购物商城

他们为了保护自己的数据信息，都是有一套完善的反爬虫机制的

我们用不同的几个python爬虫模块，来一步步试探

最终，成功越过反爬机制。

代码如下：

# -*- coding:utf-8 -*- import urllib.request req = urllib.request.urlopen('https://www.amazon.com') print(req.code) 复制代码

返回结果：状态码：503。

分析：亚马逊将你的请求，识别为了爬虫，拒绝提供服务。

Python【爬虫实战】一起一步步分析亚马逊的反爬虫机制

本着严谨的态度，我们拿万人上的百度试一下。

返回结果：状态码 200

分析：正常访问

Python【爬虫实战】一起一步步分析亚马逊的反爬虫机制

那说明，urllib模块的请求，被亚马逊识别为爬虫，并拒绝提供服务

1、requests直接爬虫访问

效果如下 ↓ ↓ ↓

Python【爬虫实战】一起一步步分析亚马逊的反爬虫机制

代码如下 ↓ ↓ ↓

import requests url='https://www.amazon.com/KAVU-Rope-Bag-Denim-Size/product-reviews/xxxxxx' r = requests.get(url) print(r.status_code) 复制代码

返回结果：状态码：503。

分析：亚马逊同样拒绝了requsets模块的请求

将其识别为了爬虫，拒绝提供服务。

2、我们给requests加上cookie

加上请求cookie等相关信息

效果如下 ↓ ↓ ↓

Python【爬虫实战】一起一步步分析亚马逊的反爬虫机制

代码如下 ↓ ↓ ↓

import requests

url='https://www.amazon.com/KAVU-Rope-Bag-Denim-Size/product-reviews/xxxxxxx' web_header={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:88.0) Gecko/20100101 Firefox/88.0', 'Accept': '*/*', 'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2', 'Accept-Encoding': 'gzip, deflate, br', 'Connection': 'keep-alive', 'Cookie': '你的cookie值', 'TE': 'Trailers'} r = requests.get(url,headers=web_header) print(r.status_code) 复制代码

返回结果：状态码：200

分析：返回状态码是200了，正常了，有点爬虫那味了。

3、检查返回页面

我们通过requests+cookie的方法，得到的状态码为200

目前至少被亚马逊的服务器正常提供服务了

我们将爬取的页面写入文本中，通过浏览器打开。

Python【爬虫实战】一起一步步分析亚马逊的反爬虫机制

我踏马…返回状态是正常了，但返回的是一个反爬虫的验证码页面。

还是被亚马逊给挡住了。

Python【爬虫实战】一起一步步分析亚马逊的反爬虫机制

反爬虫机制

先试试亚马逊的反爬机制

一、urllib模块

二、requests模块

三、selenium自动化模块

结局

关于Python技术储备（文章篇幅有限，需要资料和源码获取方式在文末）

👉Python学习路线汇总

👉Python必备开发工具👈

👉精品Python学习书籍👈

👉Python学习视频600合集👈

👉实战案例👈

👉100道Python练习题👈

👉面试刷题👈

结束语

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置

动态与静态代理IP的区别解析

HTTP代理设置详解：一步步配置指南

如何找到可靠的免费代理服务器

什么是代理服务器IP：如何选择合适的

海外静态IP的代理选择与配置

在线代理服务器的使用与推荐

国外代理服务器的优势及选择建议

Socks5代理配置教程及注意事项

静态代理IP怎么填写：步骤与示例

什么是Socks5代理IP及其优势

Python【爬虫实战】一起一步步分析亚马逊的反爬虫机制

反爬虫机制

先试试亚马逊的反爬机制

一、urllib模块

二、requests模块

三、selenium自动化模块

结局

关于Python技术储备 （文章篇幅有限，需要资料和源码获取方式在文末）

👉Python学习路线汇总

👉Python必备开发工具👈

👉精品Python学习书籍👈

👉Python学习视频600合集👈

👉实战案例👈

👉100道Python练习题👈

👉面试刷题👈

结束语

相关文章：

关于Python技术储备（文章篇幅有限，需要资料和源码获取方式在文末）