爬虫笔记

783次阅读
没有评论
爬虫笔记

爬虫

分类:

通用爬虫: 抓取系统重要组成部分,抓取整张页面。 聚焦爬虫: 建立在通用爬虫基础之上,抓取页面中特定的局部内容。 增量式爬虫: 检测网站中数据更新的情况。只会抓取网站中最新更新出的数据。

矛与盾:

反爬机制: 门户网站,通过制定相应策略或技术手段,防止爬虫程序进行网站数据的爬取。 反反爬策略: 爬虫程序可以通过制定相关的策略或技术手段,破解门户网站的反爬机制,从而获取门户网站的数据。

robots.txt协议

规定了网站中那些数据可以被爬虫爬取。

http协议

概念:服务器与客户端及逆行数据交互的一种形式。

常用请求头信息:

User-Agent:请求载体的身份标识 Connection:请求完毕后,是断开连接还是保持连接

常用响应头信息

Content-Type:服务器响应回客户端的数据类型

https协议

安全的超文本传输协议(数据加密)

加密方式:

对称密钥加密 非对称密钥加密 证书密钥加密

requests模块:

python中原生的一款基于网络请求的模块,功能强大简单便捷。 作用:模拟浏览器发请求。 使用(requests模块的编码流程) 指定url发起请求获取响应数据持久化存储 环境安装: pip install requests

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

相关文章:

版权声明:Python教程2022-10-28发表,共计503字。
新手QQ群:570568346,欢迎进群讨论 Python51学习