爬虫方法论（数据解析方法汇总）

755次阅读

数据解析分类：

数据解析原理概述：解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储
步骤：进行指定标签的定位；标签或者标签对应的属性中存储的数据值进行提取

正则表达式（待更新）

bs4进行数据解析步骤：

bs4解析原理：
- 实例化一个BeautifulSoup对象，并且将页面源码数据加载到该对象中
- 通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取
环境安装：
– pip install bs4
– pip install lxml #一种解析器

xpath进行数据解析步骤：

xpath解析原理：
- 实例化一个etree的对象，且需要将被解析的页面源码数据加载到该对象中。
- 调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获。
环境安装：
– pip install lxml
如何实例化一个etree对象
- 将本地的html文档中的源码数据加载到etree对象中：
  etree.parse(filePath)
- 可以将从互联网上获取的源码数据加载到该对象汇总
  etree.HTML(‘page_text’)
- xpath(’ xpath表达式 ')

后续工作：将针对三种方法，进行实例化讲解。

补充：

– response.content.decode() #默认为utf-8 – response.content.decode('gbk') – response.text

assert response.status_code==200

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-27

复制链接

赏

HTTP代理设置详解：一步步配置指南