一、什么是爬虫
首先简单的理解一下爬虫。即请求网站并且提取自己所需的数据的一个过程。至于怎么爬,将是后面进行学习的内容,暂且不必深究。通过我们的程序,可以代替我们向服务器发送请求,然后进行批量、大量的数据的下载。
二、爬虫的基本流程
三、request请求包含什么
当我们通过浏览器向服务器发送request请求时,这个request包含了一些什么信息呢?我们可以通过chrome的开发者工具进行说明(如果不知道如何使用看本篇备注)。
四、response包含什么
五、简单的请求演示
通过Python的request库进行网页请求:
输出的结果就是还未渲染的网页代码,即请求体的内容。可以查看响应头的信息:
查看状态码:
还可以将请求头添加到请求信息里面:
抓取图片(百度logo):
六、如何解决JavaScript渲染问题
使用Selenium webdriver
输入print(driver.page_source)可以看到,这次的代码是渲染之后的代码。
【备注】chrome浏览器的使用
- F12打开开发者工具
Elements标签显示了显然后的HTML代码。
- Network标签
Network标签下有浏览器请求的数据,点开可以查看详细的信息,如上提到的request headers、response headers等等。
YouTube学习视频(Elnino Chen老师):https://www.youtube.com/channel/UC0gXu_5GOwzAaxkFymbwRhg
转载于:https://www.cnblogs.com/AIBDMLDM/p/7137237.html
神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试