爬虫 - Python基础教程

爬虫

565次阅读

没有评论

聚焦爬虫：爬取页面中指定的内容

-编码流程：

1.指定URL

2.发起请求

3.获取响应数据

4.数据解析

5.持久化存储

数据解析分类：

-正则学习链接正则表达式 | 白月黑羽 (byhy.net)

-bs4

-xpath（重点）

原理概述：

-解析的局部文本内容都会在标签之间或者标签对应的属性中进行存储

-1.进行指定标签的定位

-2.标签或者标签对应的属性中存储的数据进行提取（解析）

bs4数据解析原理：

-1.实力化一个BS对象，并且将页面源码数据加载到对象中

-2. 通过调用bs对象中相关的属性或者方法进行标签定位和数据提取

环境安装：pip install bs4、lxml

如何实例化：from bs4 import BeautifulSoup

-1.将本地的html文档中的数据加载到对象中

-2.将互联网上获取的页面源码加载到对象中

解析方法：

-1.对象名.tagName:返回的是html中第一次出现的标签

eg：soup.a（返回第一次出现的a标签）

-2.对象名.find（’tagName‘，标签属性）：返回想要位置的标签

eg：soup.find（’div‘，class_=’song‘）

-3.对象名.find_all（’tagName‘）：所有标签

-4.对象名.select（’选择器‘）

eg:soup.select('.tang>ul>li>a')[0] 层级

soup.select('.tang>ul a')[0]

获取标签之间的文本数据：

-上述方法.text/string(获取直系内容）/get_text()

eg:soup.a.text

获取标签中的属性值：

-.上述方法['属性名‘]

eg:soup.a['href']

爬取某网站小说

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-27

# Python爬虫

复制链接

赏

爬虫

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置