- pymysql orm 保存数据
- html解析方法 分析
- 抓取 静态网页 论坛
- 动态网站 电商类
- 模拟登陆cookie 社区类
- 验证突破
- 反爬虫突破
- 多线程 线程池
- scrapy
- 通用分布式爬虫框架模块
- 更新迭代采集
- 通用解析方法
- 分布存储
#认识爬虫#
- 搜索引擎 之前 输入域名访问
- 搜索引擎 主动查询代替 被动浏览
- 怎么获取所有数据(我们关心的内容)
- 产生爬虫 爬取 索引
-
采集网络数据
-
自动化测试 (接口 请求 验证数据)selenium
-
脱离手动 (抢票 , 微信助手,爱聊,注册账号,登陆,获取资料)
-
灰产业 (撸羊毛,网络水军,攻击)
-
数据产品 数据聚合(新闻 ,头条)
-
搜索产品
-
数据分析、人工智能元数据
-
特定领域 数据服务(二手车估价,天气预报,团购,去哪儿)
#知识储备#
- 计算机网络 (http/https协议,tcp/ip协议,socket编程)
- 前端基础
- 正则表达式(数据处理)xpath css选择器
- 数据分布式存储
- 并发处理,多线程池,协程
- 图像识别(处理反扒,验证码)
- 机器学习算法(验证码,数据解析)
#学习问题#
- 大型爬虫 采集更新策略
- 解决 数据反爬虫 机制(多变)
- 数据解析
- 数据存储
- 模拟登陆(验证码识别)
- 爬虫监控 部署
- 数据去重
#爬虫正能量#
- 注意节制 限速/代理/线程 控制 减少频率
- 数据安全 robots.txt协议
- 法律问题 (2019.11.30 并不成熟)
- 可显数据
- 反扒策略
#robots协议#
-
user-agent : 爬虫名称
一般放在末尾 -
allow:爬虫可以访问得url (根路径下) /$为首页
-
disallow:不可以爬取 一般加入 /
神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试