聚焦爬虫的工作流程比较复杂,需要根据一定的网页分析算法过滤与主题无关的网页,保存有用的连接并且添加到等待抓取得url对列中,并根据一定的搜索策略从等待队列中选择下一步要抓取的连接。重复着一个过程,直到满足一定条件为止。
主要解决问题有:对抓取目标的描述和定义。对网页的分析及过滤,对url的搜索策略。
网页分析算法:一、基于网络拓扑结构的算法 分析算法简单,主题度较低。
1、基于网页粒度的分析算法:常见的有pagerank及hits算法
2、基于网站粒度的分析算法:siterank
3、网页块级的分析算法。
二、基于网页内容的分析算法
1、基于文本的分析算法
2、对隐藏网页的分析算法
三、基于用户协作的网页分析算法:用户评价决定搜索次序。
四、基于领域概念的定制网页评价算法:该算法通过定义领域并进行搜索,克服了最佳有限局部的搜索方法的局部性,提高抓取的准确性
神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试