1 . 数据来源:
2 . 爬虫的定义 : 爬虫又称网页蜘蛛,网络机器人,是一种按照一定规则,自动抓取互联网上相应的信息。
3 . 爬虫的工作原理 :
1 . 网页三大特征:
1 . 有自己唯一的URL(统一资源定位器)一个URL是由四部分组成:“协议,域名,路径,参数”。
2 . 都是使用HTML来描述页面
3 . 都使用HTTP/https(超文本传输协议)来传输HTML数据
2 . 爬虫的设计思路:
1 . 指定需要爬取的URL地址
2 . 通过HTTP/HTTPS获取对应的HTML页面
3 . 提取需要的数据
3 . 为什么选择python做爬虫?
:代码简洁,效率高,模块多,调用其他接口也方便
4 . 爬虫的分类
通用爬虫和聚焦爬虫
通用爬虫:抓取互联网所有的资源。例如:百度,谷歌等搜索引擎。
聚焦爬虫:可以选择性的抓取需要的数据
5 . DNS(domain Name System)是“域名系统”的英文缩写,用于将域名转换成ip地址
6 . HTTP/https协议:
协议概念:通信计算机双方必须遵守的约定
HTTP协议:超文本传输协议,是一个基于请求与响应,无状态的应用层协议
https协议:是以安全为目标的HTTP通道,建立一个信息安全的通道,保证数据传输的安全
7 . HTTP三次握手和四处挥手
三次握手:是指建立链接时,需要客户端和服务器总共发送三个包,进行三次握手的主要作用就是为了确认双方接收能力和发送能力是否正常
四次挥手:断开链接时,第一次挥手:客户端发送一个请求用来关闭客户端与服务器的数据传输,第二次挥手:服务器收到客户端发来的请求,第三次挥手:服务器关闭与客户端的链接,并发送一个请求给客户端,第四次挥手:关闭链接
神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试