聚焦爬虫的工作原理

803次阅读
没有评论
聚焦爬虫的工作原理

聚焦爬虫的工作流程比较复杂,需要根据一定的网页分析算法过滤与主题无关的网页,保存有用的连接并且添加到等待抓取得url对列中,并根据一定的搜索策略从等待队列中选择下一步要抓取的连接。重复着一个过程,直到满足一定条件为止。

主要解决问题有:对抓取目标的描述和定义。对网页的分析及过滤,对url的搜索策略。

网页分析算法:一、基于网络拓扑结构的算法 分析算法简单,主题度较低。

1、基于网页粒度的分析算法:常见的有pagerank及hits算法

2、基于网站粒度的分析算法:siterank

3、网页块级的分析算法。

二、基于网页内容的分析算法

1、基于文本的分析算法

2、对隐藏网页的分析算法

三、基于用户协作的网页分析算法:用户评价决定搜索次序。

四、基于领域概念的定制网页评价算法:该算法通过定义领域并进行搜索,克服了最佳有限局部的搜索方法的局部性,提高抓取的准确性 

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

相关文章:

版权声明:Python教程2022-10-24发表,共计373字。
新手QQ群:570568346,欢迎进群讨论 Python51学习