网络爬虫学习1

697次阅读

没有评论

网络爬虫MOOC学习打卡 – 第一天
一、使用 requests.get(url) 抓取网页
- 1.从cmd中打开idle
- 2.调用requests类 —— import requests
总结

在这里插入图片描述

requests.get(url) 是用来抓取网页信息的

知识点一：
1.调用requests
2.使用 get()方法抓取百度的主页信息
3.使用 r.text用来输出抓取的信息

代码如下：

# 调用requests import requests

# 使用 get()方法抓取百度的主页信息 r = requests.get(https://www.baidu.com)

# 使用 r.text用来输出抓取的信息 r.text

这里有需要注意的地方：在输入url的时候，如果不输入http://则会报错。
网络爬虫学习1
知识点二：
1.输出内容的编码格式
2.默认编码 r.encoding
3.更精准的编码 r.apparent_encoding

可以发现网页的内容有没有编写成中文的地方，所以我们可以自己分析一下真正的编码是什么
1.估计查询：r.encoding
2.更精准查询（但是也不是完全正确的）：r.apparent_encoding

代码如下：

# 默认编码（是从头文件中分析得来的）： r.encoding

# 更精准查询（但是也不是完全正确的，是从内容分析中得来的）： r.apparent_encoding

所以我们可以更改编码方式：
我们用分析更准确的编码方式赋予r.encoding，这样得到的信息就是我们想要的了 —— 从乱码到中文

代码如下：

# 把r.apparent_encoding的编码格式赋予r.encoding r.encoding = r.apparent_encoding

# 这次再输出抓取的内容吧 r.text

结果如下：
网络爬虫学习1
不难看到，中文出现了！因为我们把编码格式从 ISO-8859-1 改成了 utf-8

知识点三：
1.状态码

“今天你连接成功了么？”

# 返回结果是 200 ，success # 返回结果为 404 或其他，fault r.status_code

没什么总结的。。放松一下读读诗吧

赠卫八处士杜甫
人生不相见，动如参与商。今夕复何夕，共此灯烛光。
少壮能几时，鬓发各已苍。访旧半为鬼，惊呼热中肠。
焉知二十载，重上君子堂。昔别君未婚，儿女忽成行。
怡然敬父执，问我来何方。问答乃未已，驱儿罗酒浆。
夜雨剪春韭，新炊间黄粱。主称会面难，一举累十觞。
十觞亦不醉，感子故意长。明日隔山岳，世事两茫茫。

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-25

# Python爬虫

复制链接

赏

网络爬虫学习1

网络爬虫MOOC学习打卡 – 第一天

文章目录

一、使用 requests.get(url) 抓取网页

1.从cmd中打开idle

2.调用requests类 —— import requests

总结

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置

国外代理服务器的优势及选择建议

海外静态IP的代理选择与配置

动态与静态代理IP的区别解析

HTTP代理服务器的设置及应用实例

什么是Socks5代理IP及其优势

静态代理IP怎么填写：步骤与示例

Socks5代理配置教程及注意事项

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

什么是代理服务器IP：如何选择合适的