Python爬虫在运用requests库爬取网页内容时,要是需要进一步解析HTML页面格式,应调用python爬虫另一个BeautifulSoup库。BeautifulSoup库有四个常见对象,为1、HTML中的一个个标签的Tag;2、用来包装tag中的字符串的NavigableString;3、表示的是一个文档的全部内容BeautifulSoup;4、用于操作文档的注释部分Comment。本文向大家介绍。
1、Tag:
Tag通俗点讲就是HTML中的一个个标签。
# 获取title标签的所有内容 print(bs.title)
2、NavigableString:用来包装tag中的字符串
如果拿到标签后,还想获取标签中的内容。那么可以通过tag.string获取标签中的文字。
print(bs.title.string) print(type(bs.title.string))
3、BeautifulSoup:
表示的是一个文档的全部内容,包含了一个值为’[document]’的属性大部分时间可以把它当做Tag对象,它支持遍历文档树和搜索文档树中描述的大部分方法。
soup.name # '[document]'
4、Comment:
用于操作文档的注释部分,是一个特殊类型的 NavigableString 对象。
comment # 'Hey, buddy. Want to buy a used parser'
以上就是python爬虫BeautifulSoup库有四个常见对象,需要注意的是Tag查找方式是所有内容中的第一个符合要求的标签哦。
神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试