爬虫是什么？可以用来干什么？

2,607次阅读

没有评论

随着科技不断发展，互联网已经进入了大数据时代。

我们过去只能通过报刊杂志、电视广播获取到有限的信息，而现在，互联网上的海量数据，让我们享受到了信息自由。

但是，我们获取到了海量的信息同时，也带来了大量的垃圾信息。

所以必须要通过一些技术手段进行收集、整理、分析、筛选，然后才能获取到对我们有用的相关内容。
而这个技术手段，就叫网络爬虫技术。
爬虫是什么？可以用来干什么？

网络爬虫
网络爬虫就是一种可以从网页上抓取数据信息并保存的自动化程序，它的原理就是模拟浏览器发送网络请求，接受请求响应，然后按照一定的规则自动抓取互联网数据。

1、获取网页
获取网页可以简单理解为向网页的服务器发送网络请求，然后服务器返回给我们网页的源代码，其中通信的底层原理较为复杂，而Python给我们封装好了urllib库和requests库等，这些库可以让我们非常简单的发送各种形式的请求。

2、提取信息
获取到的网页源码内包含了很多信息，想要进提取到我们需要的信息，则需要对源码还要做进一步筛选。可以选用python中的re库即通过正则匹配的形式去提取信息，也可以采用BeautifulSoup库（bs4）等解析源代码，除了有自动编码的优势之外，bs4库还可以结构化输出源代码信息，更易于理解与使用。

3、保存数据
提取到我们需要的有用信息后，需要在Python中把它们保存下来。可以使用通过内置函数open保存为文本数据，也可以用第三方库保存为其它形式的数据，例如可以通过pandas库保存为常见的xlsx数据，如果有图片等非结构化数据还可以通过pymongo库保存至非结构化数据库中。

4、让爬虫自动运行
从获取网页，到提取信息，然后保存数据之后，我们就可以把这些爬虫代码整合成一个有效的爬虫自动程序，当我们需要类似的数据时，随时可以获取。

WEB网页
知道什么是爬虫之后，web网页作为爬取目标，是非常有必要了解的。
web网页分别是由HTML、CSS、JavaScript三个部分组成。

1、HTML
HTML是运行在浏览器上，由浏览器来解析的超文本标记语言（英语：HyperText Markup Language）。

2、CSS
CSS能够对网页中元素位置的排版，进行像素级精确控制。支持几乎所有的字体字号样式，拥有对网页对象和模型样式编辑的能力。是一种用来表现HTML或XML等文件样式的计算机语言，全称：层叠样式表(Cascading Style Sheets)。

3、JavaScript
JavaScript是一种具有函数优先的轻量级，解释型或即时编译型，基于多范式、原型编程的动态脚本语言，而且支持命令式、声明式和面向对象风格。JavaScript简称JS

HTTP
爬虫和WEB我们现在都知道是什么了，接下来就需要了解两者之间的请求与响应的关系。HTTP作为请求和响应的超文本传输协议，必须要好好介绍一下。

http
http（HyperText Transfer Protocol,超文本传输协议）通常运行在TCP之上，它指定了客户端可能发送给服务器什么消息，以及能得到什么响应。

https
而https（Hyper Text Transfer Protocol over SecureSocket Layer）是在http的基础上，通过传输加密和身份证认证，而保障了传输过程的安全性。

请求和响应
http请求过程可分为以下几个部分：
1、建立TCP连接
2、浏览器向服务器发送请求命令
3、服务器应答
4、服务器关闭TCP连接以及浏览器接受到服务器响应的数据。

爬虫是什么？可以用来干什么？

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-24

# Python爬虫

复制链接

赏

爬虫是什么？可以用来干什么？

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置