python爬虫入门

724次阅读

一、首先需要了解爬虫的原理

爬虫就是一个自动化数据采集工作，你只需要告诉它需要采取哪些数据，给它一个url，就可以自动的抓取数据。其背后的基本原理就是爬虫模拟浏览器向目标服务器发送http请求，然后目标服务器返回响应结果，爬虫客户端收到响应并从中提取数据，再进行数据清洗、数据存储工作。

二、爬虫的基本流程

爬虫的基本流程与访问浏览器类似，就是建立一个http请求，当用户输入一个url之后，点击确认，客户端会与服务器建立连接，服务器收到请求之后，会从数据库中拿到响应的数据并且封装为一个http响应，将响应的结果返回给浏览器，浏览器对响应的数据进行解析、提取、渲染并且最终展示为页面。

三、爬虫的场景分类

1、通用爬虫：抓取系统的重要组成部分，抓取的是一整个页面，这种爬虫的方式相对简单，只需要四个步骤，指定url、发送请求、获取数据、持久化存储。

# 1、指定url request_url = url # 2、发送请求 responce = requests.get(url = request_url) # 3、获取数据 responce_data = responce.text # 4、持久化存储 with open('./sogou.html','w',encoding='utf-8') as fp: fp.write(responce_data) print("爬虫结束")

2、聚焦爬虫：建立在通用爬虫的基础之上，抓取的是页面中的特定的局部页面。需要五个步骤，步骤与通用爬虫类似，只是在获取数据之后，需要对数据进行过滤、清洗。网页的数据解析器有:(1)、正则表达式。(2)、html.parser。(3)、beautifulsoup。(4)、lxml。

小结

这篇文章主要对爬虫入门进行介绍，我也是一个刚接触爬虫不久的小白，我希望和大家一起学习进步，之后我会将我学习路线和内容慢慢更新发表出来。

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-24

# Python爬虫

复制链接

赏