Python爬虫的主要作用有:
数据的来源:
去第三方的公司购买数据(比如企查查)
去免费的数据网站下载数据(比如国家统计局)
通过爬虫爬取数据
人工收集数据(比如问卷调查)
爬虫的概念: 模拟浏览器发送网络请求,接收请求响应
爬虫的用途: 12306抢票,网络投票等
爬虫的分类: 分为通用爬虫(搜索引擎、聚焦爬虫(12306抢票) 、增量式网络爬虫(Incremental Web Crawler)和深层网络爬虫
爬虫获取的数据的用途:
进行在网页或者是app上进行展示
进行数据分析或者是机器学习相关的项目
爬虫的流程:
向起始url发送请求,并获取响应
对响应进行提取
如果提取url,则继续发送请求获取响应
如果提取数据,则将数据进行保存
神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试