用urllib库几行代码实现最简单爬虫-java爬虫代码示例

626次阅读
没有评论
用urllib库几行代码实现最简单爬虫-java爬虫代码示例

“”” 使用urllib.request()请求一个网页内容,并且把内容打印出来。

“””

from urllib import request

import chardet

if __name__ == ‘__main__’:

    # 有的网站url使用不了     url = “https://www.cnblogs.com/gshelldon/p/13332798.html”

    # 打开url把内容赋值给rsp     rsp = request.urlopen(url)

    # 存取到内存当中是bytes流,使用read方法把rsp的内容读取出来,赋值给变量html。     html = rsp.read()

    # 使用decode解码成我们能够看懂的格式。     # print(type(html))         # 查看返回的格式

    html = html.decode(‘utf-8’)  # 默认的是utf-8     print(html)

返回的内容是html格式的文本


D:ProgramDataAnaconda3envsspiderpython.exe D:/爬虫/v1-最简单的爬虫.py <!DOCTYPE html> <html lang=”zh-cn”> <head>     <meta charset=”utf-8″ />     <meta name=”viewport” content=”width=device-width, initial-scale=1.0″ />     <meta name=”referrer” content=”origin” />     <meta property=”og:description” content=”nginx 动静分离 不需要运维来做,开发做的。 动态请求:该请求会调用数据库中的数据。 静态请求:用户请求不会调用数据库。 动态页面:后端开发写的需要调用数据库的页面(python、java、C、p” />     <meta http-equiv=”Cache-Control” content=”no-transform” />   省略。。。。。。。

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

相关文章:

版权声明:Python教程2022-11-01发表,共计922字。
新手QQ群:570568346,欢迎进群讨论 Python51学习