常见网络爬虫的类型 - Python基础教程

国外IP代理推荐：
IPIPGO|全球住宅代理IP（>>>点击注册免费测试<<<）
LoongProxy|全球静态代理IP（>>>点击注册免费测试<<<）
神龙海外|全球动态代理IP（>>>点击注册免费测试<<<）
国内IP代理推荐：
天启|企业级代理IP（>>>点击注册免费测试<<<）
神龙|纯净稳定代理IP（>>>点击注册免费测试<<<）
全民|优质代理IP（>>>点击注册免费测试<<<）

常见网络爬虫的类型

858次阅读

常见网络爬虫的类型

1.通用网络爬虫（General Purpose Web Crawler）

爬取目标资源在全互联网中，爬取目标数据巨大。对爬取性能要求非常高。应用于大型搜索引擎中，有非常高的应用价值。
通用网络爬虫的基本构成：初始URL集合，URL队列，页面爬行模块，页面分析模块，页面数据库，链接过滤模块等构成。
通用网络爬虫的爬行策略：主要有深度优先爬行策略和广度优先爬行策略。

2.聚焦网络爬虫（Focused Crawler）

将爬取目标定位在与主题相关的页面中
主要应用在对特定信息的爬取中，主要为某一类特定的人群提供服务
聚焦网络爬虫的基本构成：初始URL,URL队列，页面爬行模块，页面分析模块，页面数据库，连接过滤模块，内容评价模块，链接评价模块等构成
聚焦网络爬虫的爬行策略：

基于内容评价的爬行策略

基于链接评价的爬行策略

基于增强学习的爬行策略

基于语境图的爬行策略

关于聚焦网络爬虫具体的爬行策略

3.增量式网络爬虫（Incremental Web Crawler）

增量式更新指的是在更新的时候只更新改变的地方，而未改变的地方则不更新
只爬取内容发生变化的网页或者新产生的网页，
一定程度上能保证所爬取的网页，尽可能是新网页

4.深层网络爬虫（Deep Web Crawler）

表层网页：不需要提交表单，使用静态的链接就能够到达的静态网页
深层网页：隐藏在表单后面，不能通过静态链接直接获得，是需要提交一定的关键词之后才能够获取得到的网页。
深层网络爬虫最重要的部分即为表单填写部分
深层网络爬虫的基本构成：URL列表，LVS列表（LVS指的是标签/数值集合，即填充表单的数据源）爬行控制器，解析器，LVS控制器，表单分析器，表单处理器，响应分析器等
深层网络爬虫表单填写有两种类型：

基于领域知识的表单填写（建立一个填写表单的关键词库，在需要的时候，根据语义分析选择对应的关键词进行填写）

基于网页结构分析的表单填写（一般是领域只是有限的情况下使用，这种方式会根据网页结构进行分析，并自动的进行表单填写）

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-24

复制链接

赏

相关文章：

版权声明：由Python教程2022-10-24发表，共计844字。

新手QQ群：570568346，欢迎进群讨论

Python51学习

国外IP代理推荐：
IPIPGO|全球住宅代理IP（>>>点击注册免费测试<<<）
LoongProxy|全球静态代理IP（>>>点击注册免费测试<<<）
神龙海外|海外动态代理IP（>>>点击注册免费测试<<<）
国内IP代理推荐：
天启|企业级代理IP（>>>点击注册免费测试<<<）
神龙|纯净稳定代理IP（>>>点击注册免费测试<<<）
全民|国内代理IP（>>>点击注册免费测试<<<）

python爬虫百度网盘网课

python爬虫各种日期格式解析

Scrapy的基本使用

Scrapy爬取多层级网页内容的方式

Java爬虫技术

如何判断爬虫采集内容是否违法?

天启|企业级代理IP免费测试>>>>>神龙|纯净稳定代理IP免费测试>>>>>IPIPGO|全球住宅代理IP免费测试>>>>>神龙|国外动态代理IP免费测试>>>>>LoongProxy|全球静态代理IP免费测试>>>>>全民|国内代理IP免费测试