Python爬虫BeautifulSoup库中常见对象有哪些

618次阅读
没有评论

Python爬虫BeautifulSoup库中常见对象有哪些

Python爬虫在运用requests库爬取网页内容时,要是需要进一步解析HTML页面格式,应调用python爬虫另一个BeautifulSoup库。BeautifulSoup库有四个常见对象,为1、HTML中的一个个标签的Tag;2、用来包装tag中的字符串的NavigableString;3、表示的是一个文档的全部内容BeautifulSoup;4、用于操作文档的注释部分Comment。本文向大家介绍。

1、Tag:

Tag通俗点讲就是HTML中的一个个标签。

# 获取title标签的所有内容 print(bs.title)

2、NavigableString:用来包装tag中的字符串

如果拿到标签后,还想获取标签中的内容。那么可以通过tag.string获取标签中的文字。

print(bs.title.string)
 
print(type(bs.title.string))

3、BeautifulSoup:

表示的是一个文档的全部内容,包含了一个值为’[document]’的属性大部分时间可以把它当做Tag对象,它支持遍历文档树和搜索文档树中描述的大部分方法。

soup.name
# '[document]'

4、Comment:

用于操作文档的注释部分,是一个特殊类型的 NavigableString 对象。

comment
# 'Hey, buddy. Want to buy a used parser'

以上就是python爬虫BeautifulSoup库有四个常见对象,需要注意的是Tag查找方式是所有内容中的第一个符合要求的标签哦。

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

相关文章:

版权声明:wuyou2021-07-18发表,共计667字。
新手QQ群:570568346,欢迎进群讨论 Python51学习