爬虫基础知识点

597次阅读

没有评论

模拟浏览器，发送请求，获取响应。

数据采集

软件测试

抢票

网站上的投票

网络安全

爬虫根据数量：分为通用爬虫、聚焦爬虫

聚焦爬虫根据是否获取数据：分为：功能性爬虫（不读取数据，只为实现某一功能）、数据增量爬虫（获取数据，用于后续分析）

数据增量爬虫根据url与数据的关系：分为url与数据同时变化、url不变数据变化。

url或url_list（网址或网址列表）

发请求，获取响应

解析

https比http更安全，但性能也相对较低。

请求头：

host：域名

connection：长连接

Upgrade-Insecure-requests：升级为https

***User-Agent：用户代理，提供系统信息和浏览器信息。

***Referer：页面跳转处，防盗链（图片/视频）

***Cookie：状态保持

响应头：

Set-Cookie

7.状态码

所有的状态码都不可信，一切以是否从抓包的响应中获取到数据为准。

network（网络）中抓包得到的源码才是判断依据，elements（元素）中的源码是渲染之后的源码，不能作为判断标准。

浏览器

发送所有请求进行渲染。

爬虫

只发送指定请求，不会渲染。

如何抓包（根据什么）

骨骼文件：html静态文件

肌肉文件：js / ajax请求

皮肤：css / font / 图片

抓包过程：

根据发送请求的流程分别在骨骼 / 肌肉 / 皮肤响应中查找数据

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-19

# Python爬虫

复制链接

赏

爬虫基础知识点

1.爬虫的概念

2.爬虫的作用

3.爬虫的分类

4.爬虫的流程

5.http、https

6.常见的请求头与响应头

8.浏览器请求过程

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置