爬虫的本质是什么?

538次阅读
没有评论
爬虫的本质是什么?

来源于:http://www.sohu.com/a/168371748_714863

 

很多搞爬虫的总爱吹嘘分布式爬虫,仿佛只有分布式才有逼格,不是分布式简单不配叫爬虫,这是一种很肤浅的思想。

分布式只是提高爬虫功能和效率的一个环节而已,它从来不是爬虫的本质东西。爬虫的本质是网络请求和数据处理,如何稳定地访问网页拿到数据,如何精准地提取出高质量的数据才是核心问题。

分布式爬虫只有当爬虫任务量很大的时候才会凸显优势,一般情况下也确实不必动用这个大杀器,所以要明确你的目标是什么。

 

 

— 个人认为目前很多公司因为只有一到两条宽带(因为办公的宽带太贵了),也就是说爬虫只有一个网络出口,出去的ip是固定的,所以说要去搞分布式爬虫的公司,都是在装逼扯淡。作为程序员我们仅仅能提高的是抓取网页的速度而已。

转载于:https://www.cnblogs.com/xuchunlin/p/8667915.html

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

相关文章:

版权声明:Python教程2022-10-24发表,共计397字。
新手QQ群:570568346,欢迎进群讨论 Python51学习