聚焦爬虫:爬取页面中指定的内容
-编码流程:
1.指定URL
2.发起请求
3.获取响应数据
4.数据解析
5.持久化存储
数据解析分类:
-正则 学习链接 正则表达式 | 白月黑羽 (byhy.net)
-bs4
-xpath(重点)
原理概述:
-解析的局部文本内容都会在标签之间或者标签对应的属性中进行存储
-1.进行指定标签的定位
-2.标签或者标签对应的属性中存储的数据进行提取(解析)
bs4数据解析原理:
-1.实力化一个BS对象,并且将页面源码数据加载到对象中
-2. 通过调用bs对象中相关的属性或者方法进行标签定位和数据提取
环境安装:pip install bs4、lxml
如何实例化:from bs4 import BeautifulSoup
-1.将本地的html文档中的数据加载到对象中
-2.将互联网上获取的页面源码 加载到对象中
解析方法:
-1.对象名.tagName:返回的是html中第一次出现的标签
eg:soup.a(返回第一次出现的a标签)
-2.对象名.find(’tagName‘,标签属性):返回想要位置的标签
eg:soup.find(’div‘,class_=’song‘)
-3.对象名.find_all(’tagName‘):所有标签
-4.对象名.select(’选择器‘)
eg:soup.select('.tang>ul>li>a')[0] 层级
soup.select('.tang>ul a')[0]
获取标签之间的文本数据:
-上述方法.text/string(获取直系内容)/get_text()
eg:soup.a.text
获取标签中的属性值:
-.上述方法['属性名‘]
eg:soup.a['href']
爬取某网站小说
神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试