python爬虫——入门(1)-python爬虫入门教程(非常详细)

425次阅读
没有评论

python爬虫——入门(1)-python爬虫入门教程(非常详细)

 


python爬虫——入门(1)-python爬虫入门教程(非常详细)python爬虫——入门(1)-python爬虫入门教程(非常详细)python爬虫——入门(1)-python爬虫入门教程(非常详细)

  • pymysql orm 保存数据
  • html解析方法 分析
  • 抓取 静态网页 论坛
  • 动态网站 电商类
  • 模拟登陆cookie 社区类
  • 验证突破
  • 反爬虫突破
  • 多线程 线程池
  • scrapy
  • 通用分布式爬虫框架模块
  • 更新迭代采集
  • 通用解析方法
  • 分布存储

#认识爬虫#

  • 搜索引擎 之前 输入域名访问
  • 搜索引擎 主动查询代替 被动浏览
  • 怎么获取所有数据(我们关心的内容)
  • 产生爬虫 爬取 索引python爬虫——入门(1)-python爬虫入门教程(非常详细)

  • 采集网络数据

  • 自动化测试 (接口 请求 验证数据)selenium

  • 脱离手动 (抢票 , 微信助手,爱聊,注册账号,登陆,获取资料)

  • 灰产业 (撸羊毛,网络水军,攻击)

  • 数据产品 数据聚合(新闻 ,头条)

  • 搜索产品

  • 数据分析、人工智能元数据

  • 特定领域 数据服务(二手车估价,天气预报,团购,去哪儿)


#知识储备#

  • 计算机网络 (http/https协议,tcp/ip协议,socket编程)
  • 前端基础
  • 正则表达式(数据处理)xpath css选择器
  • 数据分布式存储
    python爬虫——入门(1)-python爬虫入门教程(非常详细)
  • 并发处理,多线程池,协程
  • 图像识别(处理反扒,验证码)
  • 机器学习算法(验证码,数据解析)

#学习问题#
  • 大型爬虫 采集更新策略
  • 解决 数据反爬虫 机制(多变)
  • 数据解析
  • 数据存储
  • 模拟登陆(验证码识别)
  • 爬虫监控 部署
  • 数据去重

#爬虫正能量#

  • 注意节制 限速/代理/线程 控制 减少频率
  • 数据安全 robots.txt协议
  • 法律问题 (2019.11.30 并不成熟)
  • 可显数据
  • 反扒策略

#robots协议#

python爬虫——入门(1)-python爬虫入门教程(非常详细)python爬虫——入门(1)-python爬虫入门教程(非常详细)python爬虫——入门(1)-python爬虫入门教程(非常详细)

  • user-agent : 爬虫名称
    python爬虫——入门(1)-python爬虫入门教程(非常详细)python爬虫——入门(1)-python爬虫入门教程(非常详细)python爬虫——入门(1)-python爬虫入门教程(非常详细)python爬虫——入门(1)-python爬虫入门教程(非常详细)python爬虫——入门(1)-python爬虫入门教程(非常详细)python爬虫——入门(1)-python爬虫入门教程(非常详细)python爬虫——入门(1)-python爬虫入门教程(非常详细)python爬虫——入门(1)-python爬虫入门教程(非常详细)
    一般放在末尾

  • allow:爬虫可以访问得url (根路径下) /$为首页

  • disallow:不可以爬取 一般加入 /

 

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

相关文章:

版权声明:Python教程2022-11-01发表,共计613字。
新手QQ群:570568346,欢迎进群讨论 Python51学习