最全反爬虫技术介绍

536次阅读

反爬虫 的技术大概分为四个种类：

无论是浏览器还是爬虫程序，在向服务器发起网络请求的时候，都会发过去一个头文件：headers，比如知乎的requests headers:

Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,/;q=0.8 Accept-Encoding:gzip, deflate, sdch, br Accept-Language:zh-CN,zh;q=0.8,en;q=0.6,zh-TW;q=0.4,da;q=0.2,la;q=0.2 Cache-Control:max-age=0 Connection:keep-alive Cookie: ********** Host:http://zhuanlan.zhihu.com Referer:Ehco – 知乎 Upgrade-Insecure-Requests:1 User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36 Query String Parameters view source view URL encoded

这里面的大多的数的字段都是浏览

这里面的大多数的字段都是浏览器向服务器”表明身份“用的
对于爬虫程序来说，最需要注意的字段就是：User-Agent
很多网站都会建立 user-agent白名单，只有属于正常范围的user-agent才能够正常访问。

比如知乎：

import requests
import bs4
import random

def get_html(url):
try:
r = requests.get(url, timeout=30)
r.raise_for_status
r.encoding = r.apparent_encoding
return r.text
except:
return “Someting Wrong！”

print(get_html(‘https://zhuanlan.zhihu.com’))

‘’’
<html><body><h1>500 Server Error</h1>
An internal server error occured.
</body></html>
‘’‘

可以看到，这里的请求被拒绝了，并且返回了一个500的错误码：
这里就是因为requests库本身的headers是这样的：

{‘Date’: ‘Tue, 09 May 2017 12:13:00 GMT’, ‘Content-Type’: ‘text/html’, ‘Transfer-Encoding’: ‘chunked’, ‘Connection’: ‘keep-alive’, ‘Set-Cookie’: ‘aliyungf_tc=AQAAAPDDXQnf6AEAHaBXcP1tHo5z1uta; Path=/; HttpOnly, acw_tc=AQAAAAM
89GeptQMAHaBXcJiyTK3l8c5g; Path=/; HttpOnly’, ‘Cache-Control’: ‘no-cache’}

这里面并没有user-agent字段，自然不被知乎的服务器所接受了。

解决方法：

可以自己设置一下user-agent，或者更好的是，可以从一系列的user-agent里随机挑出一个符合标准的使用，代码如下：

def get_agent():
‘’’
模拟header的user-agent字段，
返回一个随机的user-agent字典类型的键值对
‘’’
agents = [‘Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;’,
‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv,2.0.1) Gecko/20100101 Firefox/4.0.1’,
‘Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11’,
‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11’,
‘Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)’]
fakeheader = {}
fakeheader[‘User-agent’] = agents[random.randint(0, len(agents))]
return fakeheader # 注意看新的请求函数：

def get_html(url): try: r = requests.get(url, timeout=30,headers=get_agent()) r.raise_for_status r.encoding = r.apparent_encoding return r.status_code except: return "Someting Wrong！"

''' OUT: 200 ''' </pre></div><h4 style="font-size:14px;color:rgb(0,0,0);font-family:'PingFang SC', 'Helvetica Neue', Helvetica, Arial, sans-serif;">二、通过IP限制来反爬虫：</h4><p style="color:rgb(0,0,0);font-family:'PingFang SC', 'Helvetica Neue', Helvetica, Arial, sans-serif;font-size:14px;">如果一个固定的ip在短暂的时间内，快速大量的访问一个网站，那自然会引起注意，管理员可以通过一些手段把这个ip给封了，爬虫程序自然也就做不了什么了。</p><p style="color:rgb(0,0,0);font-family:'PingFang SC', 'Helvetica Neue', Helvetica, Arial, sans-serif;font-size:14px;"><strong>解决方法：</strong></p><p style="color:rgb(0,0,0);font-family:'PingFang SC', 'Helvetica Neue', Helvetica, Arial, sans-serif;font-size:14px;">比较成熟的方式是：IP代理池<br>简单的说，就是通过ip代理，从不同的ip进行访问，这样就不会被封掉ip了。<br>可是ip代理的获取本身就是一个很麻烦的事情，网上有免费和付费的，但是质量都层次不齐。如果是企业里需要的话，可以通过自己购买集群云服务来自建代理池。</p><p style="color:rgb(0,0,0);font-family:'PingFang SC', 'Helvetica Neue', Helvetica, Arial, sans-serif;font-size:14px;">这里实现了一个简单的代理转换，代码如下：</p><div class="cnblogs_code" style="font-family:'Courier New';font-size:12px;border:1px solid rgb(204,204,204);color:rgb(0,0,0);"><pre style="font-family:'Courier New';">def get_proxy(): ''' 简答模拟代理池返回一个字典类型的键值对， ''' proxy = ["http://116.211.143.11:80", "http://183.1.86.235:8118", "http://183.32.88.244:808", "http://121.40.42.35:9999", "http://222.94.148.210:808"] fakepxs = {} fakepxs['http'] = proxy[random.randint(0, len(proxy))]

return fakepxs</pre></div><h4 style="font-size:14px;color:rgb(0,0,0);font-family:'PingFang SC', 'Helvetica Neue', Helvetica, Arial, sans-serif;">三、通过JS脚本来防止爬虫：</h4><p style="color:rgb(0,0,0);font-family:'PingFang SC', 'Helvetica Neue', Helvetica, Arial, sans-serif;font-size:14px;">这个可以说是终极的办法了，因为，爬虫终归只是一段程序，它并不能像人一样去应对各种变化，如验证码，滑动解锁之类的。<br>举个例子：如果想爬取某个网站，但是在进入网站之前，它会有一个验证页面来验证你是不是机器。<br>它是怎么验证的呢：</p><blockquote style="background-image:none;border:2px solid rgb(239,239,239);color:rgb(51,51,51);margin-left:25px;font-family:'PingFang SC', 'Helvetica Neue', Helvetica, Arial, sans-serif;font-size:14px;"><p>他会通过js代码生成一大段随机的数字，然后要求浏览器通过js的运算得出这一串数字的和，再返回给服务器.</p></blockquote><p style="color:rgb(0,0,0);font-family:'PingFang SC', 'Helvetica Neue', Helvetica, Arial, sans-serif;font-size:14px;">可想而知，这么简单和最基础的一个验证步骤，会是写的代码完成不了的。</p><p style="color:rgb(0,0,0);font-family:'PingFang SC', 'Helvetica Neue', Helvetica, Arial, sans-serif;font-size:14px;"><strong>解决方法：</strong><br>这里就要请出一个大杀器：”PhantomJS“</p><blockquote style="background-image:none;border:2px solid rgb(239,239,239);color:rgb(51,51,51);margin-left:25px;font-family:'PingFang SC', 'Helvetica Neue', Helvetica, Arial, sans-serif;font-size:14px;"><p>PhantomJS是一个Python包，他可以在没有图形界面的情况下，完全模拟一个”浏览器“，js脚本验证什么的再也不是问题了。</p></blockquote><h4 style="font-size:14px;color:rgb(0,0,0);font-family:'PingFang SC', 'Helvetica Neue', Helvetica, Arial, sans-serif;">四、通过robots.txt来限制爬虫：</h4><p style="color:rgb(0,0,0);font-family:'PingFang SC', 'Helvetica Neue', Helvetica, Arial, sans-serif;font-size:14px;">世界上做爬虫最大最好的就是Google了，搜索引擎本身就是一个超级大的爬虫，Google开发出来爬虫24h不间断的在网上爬取着新的信息，并返回给数据库，但是这些搜索引擎的爬虫都遵守着一个协议：<em>robots.txt</em></p><blockquote style="background-image:none;border:2px solid rgb(239,239,239);color:rgb(51,51,51);margin-left:25px;font-family:'PingFang SC', 'Helvetica Neue', Helvetica, Arial, sans-serif;font-size:14px;"><p>robots.txt（统一小写）是一种存放于网站根目录下的ASCII编码的文本文件，它通常告诉网络搜索引擎的漫游器（又称网络蜘蛛），此网站中的哪些内容是不应被搜索引擎的漫游器获取的，哪些是可以被漫游器获取的。因为一些系统中的URL是大小写敏感的，所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为，那么可以将自定的设置合并到根目录下的robots.txt，或者使用robots元数据（Metadata，又称元数据）。<br>robots.txt协议并不是一个规范，而只是约定俗成的，所以并不能保证网站的隐私。注意robots.txt是用字符串比较来确定是否获取URL，所以目录末尾有与没有斜杠“/”表示的是不同的URL。robots.txt允许使用类似"Disallow: *.gif"这样的通配符[1][2]。</p></blockquote><p style="color:rgb(0,0,0);font-family:'PingFang SC', 'Helvetica Neue', Helvetica, Arial, sans-serif;font-size:14px;">wiki上说的已经很清楚了，这实际上只是一个”君子协议“，遵守与否，都在于爬虫的编写者。</p><p style="color:rgb(0,0,0);font-family:'PingFang SC', 'Helvetica Neue', Helvetica, Arial, sans-serif;font-size:14px;">来看一下京东的'robots.txt'：</p><div class="cnblogs_code" style="font-family:'Courier New';font-size:12px;border:1px solid rgb(204,204,204);color:rgb(0,0,0);"><pre style="font-family:'Courier New';">User-agent: *

Disallow: /?*
Disallow: /pop/.html
Disallow: /pinpai/.html?*
User-agent: EtaoSpider
Disallow: /
User-agent: HuihuiSpider
Disallow: /
User-agent: GwdangSpider
Disallow: /
User-agent: WochachaSpider
Disallow: /

可以看到，京东的robots协议里明确的指出四个”user-agent”是禁止访问的，
事实上，这四个user-agent也是四个臭名昭著的恶性爬虫。

所以最好遵守这个规则！，互联网上的很多资源都是免费的，但是如果因为个人的利益，而损害到别人，这是很不对的！

当然有种情况是例外的，比如说我们爬虫的获取网页的速度，和人类浏览网页是差不多的，这并不会给服务器造成太大的性能损失，在这种情况下，我们是可以不用恪守 robots协议的。

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-24

# Python爬虫

复制链接

赏

最全反爬虫技术介绍

一、通过User-Agent来控制访问：

OUT：

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置