PYTHON——第九章网络爬虫应用和实例

500次阅读

没有评论

一，通用代码框架

1，Requests库的异常

PYTHON——第九章网络爬虫应用和实例

该方法能判断返回的内容是不是200，是200返回内容正确，不是就引起HTTPError

PYTHON——第九章网络爬虫应用和实例

2，爬取网页的通用代码框架

import requests def getHTMLText(url): try: r=requests.get(url,timeout=30) r.raise_for_status() r.encoding=r.apparent_encoding return r.text except: return "产生异常" if __name__=="__main__": url="http://www.baidu.com" print(getHTMLText(url)) #获得相应网站的HTML代码

3，习题

编写代码实现使用通用爬虫框架实现对新浪百度搜索首页的信息获取，并将信息内容存放在文件中，注意保存前先处理内容的编码。

答案代码如下：

import requests
def getHTMLText(url):
try:
r=requests.get(url,timeout=30)
r.raise_for_status()
r.encoding=r.apparent_encoding
return r.text
except:
return "产生异常"
if __name__=="__main__":
url = "http://www.sina.com.cn/"
f = open("D:/1.txt", 'wb')
f.write(getHTMLText(url).encode('utf-8'))
f.close()

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-28

# Python爬虫

复制链接

赏

PYTHON——第九章网络爬虫应用和实例

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置

Socks5代理配置教程及注意事项

HTTP代理服务器的设置及应用实例

国外代理服务器的优势及选择建议

动态与静态代理IP的区别解析

什么是Socks5代理IP及其优势

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置

HTTP代理设置详解：一步步配置指南

在线代理服务器的使用与推荐

什么是代理服务器IP：如何选择合适的