1聚焦爬虫工作原理及关键技术概述
网络爬虫是一个自动提取网页的程序,它为搜索引擎从 Internet 网上下载网页,
是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的 URL 开始,获 得初
始网页上的 URL,在抓取网页的过程中,不断从当前负面上抽取新的 URL 放入队
列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根 据一
定的网贡分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取
的 URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网 页
URL,并重复上述过程,直到达到系统的某一条件时停止,另外,所有被爬虫抓
取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的杳
询和检索:对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取
过程给出反馈和指导
相对于通用网络爬虫,聚焦爬虫还需要解决三个主要问题:
(1对抓取目标的描述或定义;
(2) 对网页或数据的分析与过滤:
(3) 对URI的搜索策略。
抓取目标的描述和定义是决定网页分析算法与 URL 搜索策略如何制订的基础。而
网页分析算法和候选 URL 排序算法是决定搜索引擎所提供的服务形式和爬虫网
页抓取行为的关键所在。这两个部分的算法又是紧密相关的。
2抓取目标描述
现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征、基手目标数据模式和
基于领域概念3种。
基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。根据种
子样本获取方式可分为:
(1)预先给定的初始抓取种子样本;
(2)预先给定的网页分类目录和与分类目录对应的种子样本,如 Yahoo!分类
结构等;
(3)通过用户行为确定的抓取目标样例,分为:
a) 用户浏览过程中显示标注的抓取样本:
b)通过用户日志挖掘得到访问模式及相关样本
其中,网页特征可以是网页的内容特征,也可以是网页的链接结构特征,等等
现有的聚焦爬虫对抓取目标的描述或定义可以分为基于目标网页特征,基于目标
数据模式和基于领域概念三种
基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。具体的
方法根据种子样本的获取方式可以分为:(1)预先给定的初始抓取种子样 本
2)预先给定的网页分类日录和与分类目录对应的种子样本,如 Yahoo !分类结
构等:
(3)通过用户行为确定的抓取目标样例。其中,网页特征可以是 网页的
内容特征,也可以是网页的链接结构特征,等等
基于目标数据模式的爬虫针对的是网页上的数据,所抓取的数据-
的模式,或者可以转化或映射为目标数据模式.
神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试