python爬虫案例：从网页上获取源码

494次阅读

python爬虫案例：从网页上获取源码

我们平时都是看到网页打开的样子，那么有没有小伙伴见过网页最本来的样子？其实最开始网页诞生的时候只是一些源码，我们上网页浏览的时候是不会看到的。看到的都是网页制作者想让我们看到的样子。今天我们回归本源，一起来看一下网页的源码是什么样子，在操作方法上会使用Python爬虫的知识。

直接上代码：

import requests
 s = requests.session()
 url = "http://www.baidu.com"
 data = s.get(url)
 with open("baidu.txt","w+",encoding='UTF-8') as f:
     f.write(data.content.decode("utf-8"))

import requests 把这个工具箱拿过来。
s = requests.session() 其中的一个工具取个短名，就叫s。
url = "http://www.baidu.com" 这是我们要测试的地址，主要http://不能省。用双引号包起来说明是个字符串。
data = s.get(url) s.get(url)就是让程序去访问网站，拿到源码了，拿到的源码命名为data。
with open("baidu.txt","w+",encoding='UTF-8') as f:

源码拿到了我们又看不见，很抽象，很难受，我当时是喜欢把它们写到文档里再研究；所以创建个baidu.txt（用完整的路径也行）的文档，w+模式打开，文件编码是UTF-8，告诉程序这个文件里面写的是中文，不是俄语。as f，让这个文件打开后代号为f，对f的操作就是对文件的操作。

f.write(data.content.decode(“utf-8”)) 对f执行write操作，写入的内容是获取的源码data中的content；

data是requests.Session.get返回的一整坨东西，是一个结构体，不是能写入文本文件的字符串，所以要用里面的content。.decode(“utf-8”) 意思是把鸟语翻译成格式为”utf-8”中文再写进去。

这些代码可以直接复制到Python Console回车就可以执行；会再py文件所在路径或者你自己设定的baidu.txt的路径生成一个baidu.txt的文件；打开就可以看到源码。

python爬虫案例：从网页上获取源码

看起来挤在一起有点难受，不过源码的结果就是这样。相信看着这个图片，小伙伴们对源码又有了直观的了解。

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python基础教程

2021-05-27

复制链接

赏

python爬虫案例：从网页上获取源码

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置

海外静态IP的代理选择与配置

HTTP代理设置详解：一步步配置指南

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

HTTP代理服务器的设置及应用实例

什么是Socks5代理IP及其优势

在线代理服务器的使用与推荐

动态与静态代理IP的区别解析

静态代理IP怎么填写：步骤与示例

国外代理服务器的优势及选择建议