网络爬虫MOOC学习打卡 – 第一天
文章目录
- 网络爬虫MOOC学习打卡 – 第一天
- 一、使用 requests.get(url) 抓取网页
-
- 1.从cmd中打开idle
- 2.调用requests类 —— import requests
- 总结
一、使用 requests.get(url) 抓取网页
1.从cmd中打开idle
2.调用requests类 —— import requests
requests.get(url) 是用来抓取网页信息的
知识点一:
1.调用requests
2.使用 get()方法抓取百度的主页信息
3.使用 r.text用来输出抓取的信息
代码如下:
# 调用requests import requests
# 使用 get()方法抓取百度的主页信息 r = requests.get(https://www.baidu.com)
# 使用 r.text用来输出抓取的信息 r.text
这里有需要注意的地方:在输入url的时候,如果不输入http://则会报错。
知识点二:
1.输出内容的编码格式
2.默认编码 r.encoding
3.更精准的编码 r.apparent_encoding
可以发现网页的内容有没有编写成中文的地方,所以我们可以自己分析一下真正的编码是什么
1.估计查询:r.encoding
2.更精准查询(但是也不是完全正确的):r.apparent_encoding
代码如下:
# 默认编码(是从头文件中分析得来的): r.encoding
# 更精准查询(但是也不是完全正确的,是从内容分析中得来的): r.apparent_encoding
所以我们可以更改编码方式:
我们用分析更准确的编码方式赋予r.encoding,这样得到的信息就是我们想要的了 —— 从乱码到中文
代码如下:
# 把r.apparent_encoding的编码格式赋予r.encoding r.encoding = r.apparent_encoding
# 这次再输出抓取的内容吧 r.text
结果如下:
不难看到,中文出现了!因为我们把编码格式从 ISO-8859-1 改成了 utf-8
知识点三:
1.状态码
“今天你连接成功了么?”
# 返回结果是 200 ,success # 返回结果为 404 或其他 ,fault r.status_code
总结
没什么总结的。。放松一下读读诗吧
赠卫八处士 杜甫
人生不相见,动如参与商。今夕复何夕,共此灯烛光。
少壮能几时,鬓发各已苍。访旧半为鬼,惊呼热中肠。
焉知二十载,重上君子堂。昔别君未婚,儿女忽成行。
怡然敬父执,问我来何方。问答乃未已,驱儿罗酒浆。
夜雨剪春韭,新炊间黄粱。主称会面难,一举累十觞。
十觞亦不醉,感子故意长。明日隔山岳,世事两茫茫。
神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试