爬虫
分类:
通用爬虫: 抓取系统重要组成部分,抓取整张页面。 聚焦爬虫: 建立在通用爬虫基础之上,抓取页面中特定的局部内容。 增量式爬虫: 检测网站中数据更新的情况。只会抓取网站中最新更新出的数据。
矛与盾:
反爬机制: 门户网站,通过制定相应策略或技术手段,防止爬虫程序进行网站数据的爬取。 反反爬策略: 爬虫程序可以通过制定相关的策略或技术手段,破解门户网站的反爬机制,从而获取门户网站的数据。
robots.txt协议
规定了网站中那些数据可以被爬虫爬取。
http协议
概念:服务器与客户端及逆行数据交互的一种形式。
常用请求头信息:
User-Agent:请求载体的身份标识 Connection:请求完毕后,是断开连接还是保持连接
常用响应头信息
Content-Type:服务器响应回客户端的数据类型
https协议
安全的超文本传输协议(数据加密)
加密方式:
对称密钥加密 非对称密钥加密 证书密钥加密
requests模块:
python中原生的一款基于网络请求的模块,功能强大简单便捷。 作用:模拟浏览器发请求。 使用(requests模块的编码流程) 指定url发起请求获取响应数据持久化存储 环境安装: pip install requests
神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试