初识爬虫①

394次阅读
没有评论


文章目录

  • ​​什么是网络爬虫​​
  • ​​浏览器的工作原理​​
  • ​​爬虫的工作原理​​

什么是网络爬虫

​​网络爬虫​​,简称爬虫,是一种按照一定的规则,自动地抓取互联网信息的程序或者脚本。

爬虫做的事情其实和蜘蛛是类似的,所以网络爬虫也被称为网络蜘蛛(spider)。蜘蛛在蜘蛛网上爬来爬去,把触手伸到蜘蛛网获取食物,而网络爬虫则是在互联网上爬来爬去,爬取我们需要的数据。

初识爬虫①

虽然你只是刚开始学习爬虫,但在生活中其实你已经在很多地方使用过爬虫了。比如当你想知道“爬虫能干什么”,于是打开搜索引擎搜索“爬虫能干什么”。搜索结果如下图所示:

初识爬虫①


搜索引擎本质上就是爬虫。在上面的过程中,搜索引擎将互联网上的网页都爬取并存储起来。当我们搜索的时候,搜索引擎就从自己存储的网页里找到我们需要的结果并展示出来

随着机器学习、人工智能技术的发展,数据越来越重要,需要的数据量也越来越大。而我们可以通过爬虫获取海量的数据,所以爬虫是这一切的源头。

一般情况下,我们都是通过浏览器浏览网页,获得信息。所以,在说爬虫之前,我们先说说浏览器。

浏览器有很多种,主流的浏览器有 Chrome 浏览器、QQ 浏览器、IE 浏览器、搜狗浏览器等。

初识爬虫①

浏览器的工作原理

我们以扇贝搭建的爬虫博客平台为例,网址是:https://wpblog.x0y1.com/

初识爬虫①

假如我们要博客里文章的数据,首先我们会输入网址,然后浏览器将网站内容展示出来。我们和浏览器的交互过程如下图所示:

初识爬虫①

那么浏览器是怎么知道扇贝编程博客网站内容的呢?难道浏览器将所有网站的内容保存下来了?

当然不是这样!其实,浏览器偷偷地和 ​​服务器​​ 进行了交流,服务器将博客网站的内容传输给浏览器,浏览器收到后解析成你最终看到的网页。

浏览器通过 DNS(Domain Name System)将域名转换成对应的 IP 地址,从而找到对应网站的服务器。如果你对这个过程感兴趣,可搜索 DNS 了解更多。

初识爬虫①


首先,我们在浏览器输入​​网址(URL)​​​。然后浏览器去访问该网址对应的服务器,这个过程叫 ​​请求(request)​​​。接着服务器将网站内容发送给浏览器,这个过程叫 ​​响应(response)​​。浏览器拿到服务器返回的内容后,一般都是网页的源代码。还需要浏览器将内容解析成我们能看懂的样子,也就是我们最终在浏览器里看到的网页。

初识爬虫①


说了半天浏览器的工作原理,这和我们的爬虫有什么关系呢?其实,爬虫就是模拟浏览器的行为,从而获取网站的数据。

爬虫的工作原理

爬虫可以像浏览器一样向服务器发起请求,拿到服务器返回的数据后,可以根据我们设定的规则去提取需要的数据,数据处理完成后再将数据存储起来。

初识爬虫①


我们将上面的过程简化一下,可以将爬虫的工作总结为 3 步:

初识爬虫①


第一步:获取数据,爬虫会根据我们提供的网址,向服务器发起请求获取数据;

第二步:处理数据,对获取的数据进行处理,得到我们需要的部分;

第三步:存储数据,将处理后的数据保存起来,便于后续的使用和分析等。


神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

相关文章:

版权声明:Python教程2022-11-01发表,共计1205字。
新手QQ群:570568346,欢迎进群讨论 Python51学习