聊聊4种类型的爬虫技术
- 网络爬虫是一种很好的自动采集数据的通用手段
- 聚焦爬虫是“面向特定主题需求”的一种爬虫程序,而通用网络爬虫测试搜索引擎抓取系统(Baidu、Google、bing等)的重要组成部分,主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。
- 增量抓取即针对某个站点的数据进行抓取,当网站的新增数据或者该站点的数据发生变化后,自动的抓取它新增的或者变化后的数据。
- Web页面按存在方式可以分为表层网页(surface Web)和深层网页(deep Web,也称invisible Web pages或hidden Web)
- 表层网页是指传统搜索引擎可以索引的页面,即以超链接可以到达的静态网页为主来构成的Web页面
- 深层网页是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获取到的Web页面
1、聚焦爬虫
聚焦爬虫(focused crawler)也就是主题网络爬虫。聚焦爬虫技术增加了链接评价和内容评价模块,其爬行策略实现要点就是评价页面内容以及链接的重要性。
基于链接评价的爬行策略,主要是以Web页面作为便结构化的文档,其中拥有很多结构信息可用于评价链接重要性。还有一个是利用Web结构来评价链接价值的方法,也就是HITS法,其通过计算每个访问页面的Authority权重和Hub权重来决定链接访问顺序。
基于内容评价的爬行策略,主要是将文本相似的计算法加以应用,提出Fish-Search算法,把用户输入查询词当作主题,在算法的进一步改进下,通过Shark-Search算法就能利用空间向量模型来计算页面和主题相关度大小。
面向主题爬虫、面向需求爬虫:会针对某种特定的内容去爬取信息,而且会保证信息和需求尽可能相关。
2、通用爬虫技术
通用爬虫技术(general purpose Web crawler)也就是全网爬虫
- 第一、获取初始URL,初始URL地址可以由用户人为指定,也可以由用户指定的某个或某几个初始爬取网页决定。
- 第二、根据初始的URL爬取页面并获得新的URL,获得初始的URL地址之后,需要先爬取对应URL地址中的网页,接着将网页存储到原始数据库中,并且在爬取网页的同时,发现新的URL地址,并且将以爬取的URL地址存放到一个URL列表中,用于去重及判断爬取的进程。
- 第三,将新的URL放到URL队列中,在于第二步内获取下一个新的URL地址之后,会将新的URL地址放到URL队列中。
- 第四,从URL队列中读取新的URL,并依据新的URL爬取网页,同时从新的网页中获取新的URL并重复上述的爬取过程。
- 第五,满足爬虫系统设置的停止条件时,停止爬取。在编写爬虫的时候,一般会设置相应的停止条件。如果没有设置停止条件,爬虫便会一直爬取下去,一直到无法获取新的URL地址为止,若设置了停止条件,爬虫则会在停止条件满足时停止爬取。
通用爬虫技术的应用有着不同的爬取策略,其中的广度优先策略以及深度优先策略都是比较关键的,如深度优先策略的实施是依照深度从低到高的顺序来访问下一级网页链接。
3、增量爬虫技术
某些网站会定时在原有网页数据的基础上更新一批数据,如某电影网站会实时更新一批最近热门的电影,小说网站会根据作者创作的进度实时更新最新的章节数据等。在遇到类似的场景时,我们便可以采用增量式爬虫。
增量式爬虫技术(incremental Web crawler)就是通过爬虫程序监测某网站数据更新的情况,以便可以爬取到该网站更新后的新数据。
关于如何进行增量式的爬取工作,以下给出三种检测重复数据的思路:
1、在发送请求之前判断这个URL是否曾爬过;
2、在解析内容后判断这部分内容是否曾爬取过;
3、写入存储介质时判断内容是否已存入介质中。
- 第一种思路适合不断有新的页面出现的网站,比如小说的新章节、每天的时事新闻等;
- 第二种思路则适合页面内容会定时更新的网站;
- 第三种思路则相当于最后一道防线。这样做可以最大限度地达到去重的目的。
不难发现,实现增量爬取的核心是去重。目前存在两种去重方法。
第一,对爬取过程中产生的URL进行存储,存储在Redis的set中。当下次进行数据爬取时,首先在存储的URL的set中对即将发起的请求所对应的URL进行判断,如果存在则不进行亲求,否则才进行请求。
第二,对爬取到的网页内容进行唯一标示的制定(数据指纹),然后将该唯一标识存储至Redis的set中。当下次爬取到网页数据的时候,在进行持久化存储之前,可以先判断该数据的唯一标示在Redis的set中是否存在,从而决定是否进行持久化存储。
4、深层网络爬虫技术
在互联网中,网页按存在方式可以分为表层网页和深层网页两类。
所谓的表层网页,指的是不需要提交表单,使用静态的链接就能够到达的静态页面;而深层网页则隐藏在表单后面,不能通过静态链接直接获取,是需要提交一定的关键词后才能够获取到的页面,深层网络爬虫(deep Web crawler)最重要的部分即为表单填写部分。
在互联网中,深层网页的数量往往要比表层网页的数量多很多,故而,我们需要想办法爬取深层网页。
深层网络爬虫的基本构成:URL列表、LVS列表(LVS指的是标签/数值集合,即填充表单的数据源)、爬行控制器、解析器、LVS控制器、表单分析器、表单处理器、响应分析器。
深层网络爬虫的表单填写有两种类型:
- 基于领域知识的表单填写(建立一个填写表单的关键词库,在需要的时候,根据语义分析选择对应的关键词进行填写);
- 基于网页结构分析的表单填写(一般在领域知识有限的情况下使用,这种方式会根据网页结构进行分析,并自动地进行表单填写)。
神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试