[Python] 网络爬虫-python网络爬虫从入门到实践 pdf

760次阅读
没有评论
[Python]

头元素信息:

<title>:文档标题,只有一个

<base>:默认链接

<link>:文档与外部资源关系,常用于链接样式表CSS

<style>:样式

<meta>:元数据,页面描述,关键字,文档作者等

<script>:客户端脚本,如JavaScript

 

获取网页:requests包

http请求方式:

get:90%以上

post

import requests r = requests.get(url = https://www.baidu.com/s,params={wd:金正恩元帅},timeout=0.1) #返回值 print(r) print(type(r)) #网址 print(r.url) #网页编码 print(r.encoding) #网页源码 print(r.text) #头域,返回字典 print(r.headers)

 

源码解析:BeautifulSoup包

 

分析文档树

子节点:.content

 

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

相关文章:

版权声明:Python教程2022-11-01发表,共计397字。
新手QQ群:570568346,欢迎进群讨论 Python51学习