用urllib库几行代码实现最简单爬虫-java爬虫代码示例

922次阅读

没有评论

“”” 使用urllib.request()请求一个网页内容，并且把内容打印出来。

“””

from urllib import request

import chardet

if __name__ == ‘__main__’:

# 有的网站url使用不了 url = “https://www.cnblogs.com/gshelldon/p/13332798.html”

# 打开url把内容赋值给rsp rsp = request.urlopen(url)

# 存取到内存当中是bytes流，使用read方法把rsp的内容读取出来，赋值给变量html。 html = rsp.read()

# 使用decode解码成我们能够看懂的格式。 # print(type(html)) # 查看返回的格式

html = html.decode(‘utf-8’) # 默认的是utf-8 print(html)

返回的内容是html格式的文本

D:ProgramDataAnaconda3envsspiderpython.exe D:/爬虫/v1-最简单的爬虫.py <!DOCTYPE html> <html lang=”zh-cn”> <head> <meta charset=”utf-8″ /> <meta name=”viewport” content=”width=device-width, initial-scale=1.0″ /> <meta name=”referrer” content=”origin” /> <meta property=”og:description” content=”nginx 动静分离不需要运维来做，开发做的。动态请求：该请求会调用数据库中的数据。静态请求：用户请求不会调用数据库。动态页面：后端开发写的需要调用数据库的页面(python、java、C、p” /> <meta http-equiv=”Cache-Control” content=”no-transform” /> 省略。。。。。。。

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-11-01

# Python爬虫

复制链接

赏

用urllib库几行代码实现最简单爬虫-java爬虫代码示例

返回的内容是html格式的文本

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置