爬虫介绍

911次阅读

没有评论

百度百科

网络爬虫是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

网络爬虫（又称网络蜘蛛，机器人），就是模拟客户端发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。
只要浏览器能够做的事情，原则上，爬虫都能够做到。

简单来说，爬虫就是自动从网络上收集信息的一种程序，复杂点来说，就是一整套关于数据请求、处理、存储的程序。

发送请求 -> 接收响应 -> 解析网页 (-> 提取链接 -> 发送请求) -> 提取资源 -> 保存资源

实质是模拟浏览器发送 http 请求报文的过程，实际中只需要请求服务器需要的部分报文。

模拟浏览器的请求

requests 爬虫最常用的库
比起之前用到的urllib，requests模块的api更加便捷（本质就是封装了urllib3）。

urllib
提供了一系列用于操作URL的功能。

请求行、请求头、空行、请求体
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SBm9ugRo-1579768800332)(./assets/request-message.jpg#pic_center)]

使用Fiddler抓取http请求(抓包)

一个完整的 http 请求报文

POST http://columbus.os.adc.com/api/coop/requirement/tree/query/prune/page?projectId=100001 HTTP/1.1 Host: columbus.os.adc.com Connection: keep-alive Content-Length: 483 Accept: application/json, text/plain, */* Origin: http://columbus.os.adc.com User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3314.0 Safari/537.36 SE 2.X MetaSr 1.0 Content-Type: application/json;charset=UTF-8;multipart/form-data Referer: http://columbus.os.adc.com/requirement/list?projectId=100001 Accept-Encoding: gzip, deflate Accept-Language: zh-CN,zh;q=0.9 Cookie: SESSION=1e365567-bbed-4ff8-b033-6ab21dc05bd2; user=W9005349

{"projectId":"100001","title":"","assignUsers":[],"isArchived":-1}

请求行

请求方法 + 空格 +请求URL + 空格 + HTTP协议版本 + 回车换行

请求头

请求的配置信息，key-value 形式发送给服务器

Accept：浏览器可接受的MIME类型。
Accept-Charset：浏览器可接受的字符集。
Accept-Encoding：浏览器能够进行解码的数据编码方式，比如gzip。Servlet能够向支持gzip 的浏览器返回经gzip编码的HTML页面。许多情形下这可以减少5到10倍的下载时间。
Accept-Language：浏览器所希望的语言种类，当服务器能够提供一种以上的语言版本时要用到。
Content-Length：表示请求消息正文的长度。
Host：客户机通过这个头告诉服务器，想访问的主机名。Host头域指定请求资源的Intenet主机和端口号，必须表示请求url的原始服务器或网关的位置。HTTP/1.1请求必须包含主机头域，否则系统会以400状态码返回。
If-Modified-Since：客户机通过这个头告诉服务器，资源的缓存时间。只有当所请求的内容在指定的时间后又经过修改才返回它，否则返回304“Not Modified”应答。
Referer：客户机通过这个头告诉服务器，它是从哪个资源来访问服务器的(防盗链)。包含一个URL，用户从该URL代表的页面出发访问当前请求的页面。
User-Agent：User-Agent头域的内容包含发出请求的用户信息。浏览器类型，如果Servlet返回的内容与浏览器类型有关则该值非常有用。
Cookie：客户机通过这个头可以向服务器带数据，这是最重要的请求头信息之一。
Cookie2：用来说明请求端支持的cookie版本。
Range：如果服务器支持范围请求，就请求资源的指定范围。

空行

通过空行告诉服务器请求头部结束。

请求体

根据不同的请求方法包含不同的内容。
get: 空
post: 表单数据

获取特定请求返回的响应报文，提取目标数据。

响应行、响应头、空行、响应体
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NXRBMhIU-1579768800338)(./assets/response-message.jpg#pic_center)]

一个完整的 http 响应报文

HTTP/1.1 200 Server: nginx/1.12.2 Date: Thu, 23 Jan 2020 02:03:03 GMT Content-Type: application/json;charset=UTF-8 Transfer-Encoding: chunked Connection: keep-alive trace-id: 15-32349ee9-8945-438c-91a6-33ff10c0c0ee-18882 X-Content-Encoding-Over-Network: gzip

77 {"status":200,"msg":null,"data":{"result":[],"pageInfo":{"totalPages":0,"totalRecords":0,"pageNumber":1,"pageSize":5}}} 0

响应行

http协议版本 + 空格 + 状态码 + 空格 + 状态码描述 + 回车换行

http状态码

100~199：信息，服务器收到请求，需要请求者继续执行操作

200~299：成功，操作被成功接收并处理

300~399：重定向，需要进一步的操作以完成请求

400~499：客户端错误，请求包含语法错误或无法完成请求

500~599：服务器错误，服务器在处理请求的过程中发生错误

响应头

描述服务器和数据的基本信息。

Set-Cookie：设置浏览器 Cookie，以后当浏览器访问符合条件的 URL 时，会自动带上该 Cooike
Refresh：告诉浏览器隔多久刷新一次，以秒计

空行

响应头结束

响应体

网站返回的数据

提取网页链接

提取网页资源

源码中找到并提取数据

Beautiful Soup
Beautiful Soup 是 python 的一个库，其最主要的功能是从网页中抓取数据。

pyquery
据说比beautiful 好用，语法和jquery非常像。

scrapy：是Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

nutch：是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

搜索引擎
百度、谷歌搜索就是一个巨大的爬虫程序。

爬取新闻新闻门户网站的新闻共享
比如说今日头条、一点新闻、腾讯新闻等等。他们的新闻来源，一个当然是从自己的记者这里产生，另一部分呢，就是从其他网站上，爬下来他们的记者写的文章。这样才能够做到新闻的门户级别。一个网站报道了一个新闻，其他的网站马上会给你推送相同的新闻了。这中间就是爬虫在起作用，如果是人去找新闻，不仅速度慢，还可能会重复，而且不能24小时工作。这当然就很不方便了。

为机器学习，大数据做准备
机器学习基于海量的数据样本，比如人脸识别，图像识别，语音识别，只有对大量的样本数据进行分析，才能提升程序的识别准确度。至于大数据分析更是基于海量数据，所以爬虫就是获取数据的一种途径。

分析喜欢妹子的朋友圈hh

找工作时爬取招聘网站某工种的所有招聘信息

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-24

# Python爬虫

复制链接

赏

爬虫介绍

爬虫

原理

发送请求

请求库

请求报文

请求行

请求头

空行

请求体

接收响应

响应报文

响应行

响应头

空行

响应体

解析网页

解析库

爬虫开源框架

商业场景

个人用途

相关文章：