总结网络爬虫遇到的问题和需要涉及到的重点
引用知乎一篇文章:https://zhuanlan.zhihu.com/p/22556271
这篇文章中涉及的内容,在很多开源的爬虫框架中都有使用,我的个人分类中有很多相关demo和不错的文章
除此之外:
1,分布式爬虫
2,整站爬取(爬取深度)
3,redis作为url队列
4,zookeeper监控爬虫运行状况
神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试