网络爬虫学习1

469次阅读
没有评论

网络爬虫MOOC学习打卡 – 第一天

文章目录

  • 网络爬虫MOOC学习打卡 – 第一天
  • 一、使用 requests.get(url) 抓取网页
    • 1.从cmd中打开idle
    • 2.调用requests类 —— import requests
  • 总结



一、使用 requests.get(url) 抓取网页

1.从cmd中打开idle

在这里插入图片描述

2.调用requests类 —— import requests

requests.get(url) 是用来抓取网页信息的

知识点一:
1.调用requests
2.使用 get()方法抓取百度的主页信息
3.使用 r.text用来输出抓取的信息

代码如下:

# 调用requests import requests

# 使用 get()方法抓取百度的主页信息 r = requests.get(https://www.baidu.com)

# 使用 r.text用来输出抓取的信息 r.text

这里有需要注意的地方:在输入url的时候,如果不输入http://则会报错。
网络爬虫学习1
知识点二:
1.输出内容的编码格式
2.默认编码 r.encoding
3.更精准的编码 r.apparent_encoding

可以发现网页的内容有没有编写成中文的地方,所以我们可以自己分析一下真正的编码是什么
1.估计查询:r.encoding
2.更精准查询(但是也不是完全正确的):r.apparent_encoding

代码如下:

# 默认编码(是从头文件中分析得来的): r.encoding

# 更精准查询(但是也不是完全正确的,是从内容分析中得来的): r.apparent_encoding

所以我们可以更改编码方式:
我们用分析更准确的编码方式赋予r.encoding,这样得到的信息就是我们想要的了 —— 从乱码到中文

代码如下:

# 把r.apparent_encoding的编码格式赋予r.encoding r.encoding = r.apparent_encoding

# 这次再输出抓取的内容吧 r.text

结果如下:
网络爬虫学习1
不难看到,中文出现了!因为我们把编码格式从 ISO-8859-1 改成了 utf-8

知识点三:
1.状态码

“今天你连接成功了么?”

# 返回结果是 200 ,success # 返回结果为 404 或其他 ,fault r.status_code


总结

没什么总结的。。放松一下读读诗吧
 

赠卫八处士 杜甫
人生不相见,动如参与商。今夕复何夕,共此灯烛光。
少壮能几时,鬓发各已苍。访旧半为鬼,惊呼热中肠。
焉知二十载,重上君子堂。昔别君未婚,儿女忽成行。
怡然敬父执,问我来何方。问答乃未已,驱儿罗酒浆。
夜雨剪春韭,新炊间黄粱。主称会面难,一举累十觞。
十觞亦不醉,感子故意长。明日隔山岳,世事两茫茫。

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

相关文章:

版权声明:Python教程2022-10-25发表,共计1079字。
新手QQ群:570568346,欢迎进群讨论 Python51学习