爬虫方法论(数据解析方法汇总)

435次阅读
没有评论
爬虫方法论(数据解析方法汇总)

数据解析分类:

  • 正则表达式
  • bs4
  • xpath (最常用且最便捷高效的一种解析方式)

数据解析原理概述:解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储
步骤:进行指定标签的定位;标签或者标签对应的属性中存储的数据值进行提取

正则表达式(待更新)

bs4进行数据解析步骤:

  • bs4解析原理:
    • 实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中
    • 通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取
  • 环境安装:
    – pip install bs4
    – pip install lxml #一种解析器

xpath进行数据解析步骤:

  • xpath解析原理:
    • 实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中。
    • 调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获。
  • 环境安装:
    – pip install lxml
  • 如何实例化一个etree对象
    • 将本地的html文档中的源码数据加载到etree对象中:
      etree.parse(filePath)
    • 可以将从互联网上获取的源码数据加载到该对象汇总
      etree.HTML(‘page_text’)
    • xpath(’ xpath表达式 ')

后续工作:将针对三种方法,进行实例化讲解。

补充:

  • request中解决编解码的方法:

– response.content.decode() #默认为utf-8 – response.content.decode('gbk') – response.text

  • 判断请求是否成功:

assert response.status_code==200

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

相关文章:

版权声明:Python教程2022-10-27发表,共计685字。
新手QQ群:570568346,欢迎进群讨论 Python51学习