爬虫知识点

1,101次阅读

没有评论

㈠爬虫简述

爬虫，又叫网络爬虫，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外还有一些名字，例如ipipgo、自动索引、模拟程序或蠕虫。

㈡爬虫优点

定向数据采集，数据定制化很强，数据针对性强。

㈢爬虫分类

⒈通用网络爬虫(广度)

优点：爬行范围和数量巨大，对于爬行页面的顺序要求相对较低，有较强的应用价值。

缺点：对于爬行速度和存储空间要求较高，要较长的时间才能刷新一次页面。

⒉聚焦网络爬虫(深度)

优点：极大的节省了硬件和网络资源，保存的页面更新快，很好的满足一些特定人群对特定领域信息的需求。

⒊增量式网络爬虫

优点：可有效减少数据下载量，及时更新一爬行的网页，减少时间和空间上的耗费。

缺点：爬行算法的复杂度和实现难度较大。

⒋累计式爬虫

优点：与增量式爬虫不同的是，如果之前的数据发生变化，累计是抓取不会重新爬取。可以保证抓取到相当规模的网页集合。

缺点：累计式抓取到的网页事实上并无法与真是环境中的网络数据保持一致。

⒌Deep Web爬虫

优点：是互联网上最大、发展最快的新型信息资源。

㈣IP地址

代理分类：分为正向代理和反向代理。正向代理分为三种，即高度匿名代理、普通匿名代理和透明代理。

⒈高度匿名代理：隐藏真实IP，不改变客户机的请求。

⒉普通匿名代理：隐藏真实IP，改变客户请求信息。

⒊透明代理：改变请求信息，传送真实IP。

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-24

# Python爬虫

复制链接

赏

爬虫知识点

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置