什么是pyspider?【pyspide用法实例】

716次阅读
没有评论

什么是pyspider?【pyspide用法实例】

最近我们学了不少爬虫的框架,有些小伙伴反映可以出一些难的框架学习一下。对于这种爱挑战的精神,小编是非常鼓励的。结合目前大家的学习python爬虫的接受能力,小编决定为大家讲讲pyspider框架,虽然有一点点难度,不过各方面的功能和爬取的效果都非常不错,接下来我们看看pyspider的介绍以及简单的使用。

pyspider是Binux做的一个爬虫架构的开源化实现,主要功能有 :

  • 抓取、更新调度多站点的特定的页面
  • 需要对页面进行结构化信息提取
  • 灵活可扩展,稳定可监控

pyspider以去重调度,队列抓取,异常处理,监控等功能作为框架,只需提供给抓取脚本,并保证灵活性。最后加上web的编辑调试环境,以及web任务监控,即成为了这套框架。pyspider的设计基础是:以python脚本驱动的抓取环模型爬虫

 

什么是pyspider?【pyspide用法实例】

  • 各个组件间使用消息队列连接,除了scheduler是单点的,fetcher 和 processor 都是可以多实例分布式部署的。 scheduler 负责整体的调度控制
  • 任务由 scheduler 发起调度,fetcher 抓取网页内容, processor 执行预先编写的python脚本,输出结果或产生新的提链任务(发往 scheduler),形成闭环
  • 每个脚本可以灵活使用各种python库对页面进行解析,使用框架API控制下一步抓取动作,通过设置回调控制解析动作。

以上就是python爬虫pyspider框架的一些介绍,没太看明白的小伙伴可以结合以上的图片,相信对于pyspider框架的理解有一定的帮助。

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

相关文章:

版权声明:wuyou2021-05-20发表,共计643字。
新手QQ群:570568346,欢迎进群讨论 Python51学习