第一步:导入requests模块
import requests
第二步:指定URL并进行UA伪装
#如果当前python文件作为入口程序执行时,则执行if语句下的代码if __name__=='__main__': # 指定URL url = 'https://www.baidu.com' # 进行UA伪装,模拟浏览器,注意要将相应的User-Agent封装在一个字典中 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gecko/20100101 Firefox/34.0' }
第三步:向服务器发起请求,get方法返回一个响应对象
response = requests.get(url=url, headers=headers)
第四步:获取字符串类型的响应数据
page_text = response.text
第五步:持久化存储,写入文件
with open('./baidu.html', 'w', encoding='utf8') as fp: fp.write(page_text) print('百度首页爬取成功!!!')
以上就是python爬虫实战之爬取百度首页的简单实现,是不是很简单,大家快尝试看看吧。
神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试