爬虫中数据提取概述

384次阅读
没有评论

每日分享:

我们曾经如此渴望命运的波澜,到最后才发现,人生最曼妙的风景竟是内心淡定与从容。我们曾经如此期盼外界的认可,到最后才知道,世界是自己的,与他人毫无关系。

一、响应内容的分类

  • 结构化
    • json数据(高频出现)
      • json模块
      • re模块
      • jsonpath模块
    • xml数据(低频出现)
      • re模块
      • lxml模块
  • 非结构化
    • html
      • re模块
      • lxml模块

二、xml以及html的区别

数据格式 描述 设计目标
XML 可扩展标记语言 被设计为传输和存储数据,其焦点是数据的内容
HTML 超文本标记语言 显示数据以及如何更好的显示数据
  • html
    • 超文本标记语言
    • 为了更好地显示数据,侧重点是为了显示
  • xml
    • 可扩展标记语言
    • 为了传输和存储数据,侧重点是在于数据内容本身

三、常用数据解析方法

爬虫中数据提取概述

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

相关文章:

版权声明:Python教程2022-10-19发表,共计315字。
新手QQ群:570568346,欢迎进群讨论 Python51学习