一、首先需要了解爬虫的原理
爬虫就是一个自动化数据采集工作,你只需要告诉它需要采取哪些数据,给它一个url,就可以自动的抓取数据。其背后的基本原理就是爬虫模拟浏览器向目标服务器发送http请求,然后目标服务器返回响应结果,爬虫客户端收到响应并从中提取数据,再进行数据清洗、数据存储工作。
二、爬虫的基本流程
爬虫的基本流程与访问浏览器类似,就是建立一个http请求,当用户输入一个url之后,点击确认,客户端会与服务器建立连接,服务器收到请求之后,会从数据库中拿到响应的数据并且封装为一个http响应,将响应的结果返回给浏览器,浏览器对响应的数据进行解析、提取、渲染并且最终展示为页面。
三、爬虫的场景分类
1、通用爬虫:抓取系统的重要组成部分,抓取的是一整个页面,这种爬虫的方式相对简单,只需要四个步骤,指定url、发送请求、获取数据、持久化存储。
# 1、指定url request_url = url # 2、发送请求 responce = requests.get(url = request_url) # 3、获取数据 responce_data = responce.text # 4、持久化存储 with open('./sogou.html','w',encoding='utf-8') as fp: fp.write(responce_data) print("爬虫结束")
2、聚焦爬虫:建立在通用爬虫的基础之上,抓取的是页面中的特定的局部页面。需要五个步骤,步骤与通用爬虫类似,只是在获取数据之后,需要对数据进行过滤、清洗。网页的数据解析器有:(1)、正则表达式。(2)、html.parser。(3)、beautifulsoup。(4)、lxml。
小结
这篇文章主要对爬虫入门进行介绍,我也是一个刚接触爬虫不久的小白,我希望和大家一起学习进步,之后我会将我学习路线和内容慢慢更新发表出来。
神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试