什么是爬虫，怎么玩爬虫？

1,730次阅读

没有评论

什么是爬虫，怎么玩爬虫？

看到这两只爬虫没有？

两只爬虫

跑得快

一只没有..

不好意思

跑题了…

别误会，今天不是要教你怎么玩上面这两只沙雕玩意。

今天，我们正式从0到1

轻松学会 python 爬虫

接下来…

将是学习Python的正确姿势！

小帅b闪亮登场

什么是爬虫，怎么玩爬虫？

在你的浏览器里面

输入百度网址

https://www.baidu.com

一回车看到一个网页

什么是爬虫，怎么玩爬虫？

大家都很熟悉吧！

然而

你右键，查看网页源代码。

是这个样子的

什么是爬虫，怎么玩爬虫？

（源代码的1/100）

“窝里割草”

简简单单一个页面。

这么多密密麻麻的代码

不说了

劝退前端程序员！

还是学习 Python 吧。哈哈哈

什么是爬虫，怎么玩爬虫？

那么说这个，和爬虫有什么关系呢？

你有没有想过

这些许许多多的网站

背后都是一些数据

如果我们可以用一个自动化的程序

轻轻松松就能把它们给爬取下来

是不是很爽？

比如，一些小电影的网站

我们只要用 Python

写几行代码

然后一运行

这个程序就帮我们爬取所有的小电影到我们本地

完全不需要我们费一点力气

再比如，你想了解一个行业的趋势

是不是可以把它们往年的数据都爬取下来

然后，对这些数据做一些分析呢？

等等..

这些，以后我们都会讲到！

我们刚刚提到的

一个自动化的程序

就是爬虫

知道了什么是爬虫之后

问题来了

爬虫怎么玩的？

那就偷偷告诉你

什么是爬虫，怎么玩爬虫？

在互联网上许许多多的网站

它们都是托管在服务器上的

这些服务器 24 小时运行着

时时刻刻，兢兢业业的等待着别人的请求

所以

我们的爬虫，首先会模拟请求

就好像你在浏览器输入网址，然后回车那样

爬虫可以用到一些 Http 库向指定的服务器偷偷摸摸的发起请求，这个时候爬虫可以假装自己是浏览器（添加一些header信息）

大多数的服务器呢，傻不拉的以为是浏览器发送请求

就直接返回数据给爬虫了

什么是爬虫，怎么玩爬虫？

当然了，有一些网站比较精明

所以他们会建立一些反爬虫机制

但是，对于我们来说，不在话下

这个是后话了！

反正这个时候呢，服务器把数据返回给我们了

那么我们就可以对这些数据进行猥琐操作了。

什么是爬虫，怎么玩爬虫？

不同的情况下，服务器返回给我们的数据格式不一样

有

HTML

JSON

二进制的数据啦

根据不同的情况，我们可以使用不同的方式对他们进行处理。

处理完之后

我们就可以对他们进行保存啦

保存的方式也有几种

数据库

硬盘

等等..

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-05-19

复制链接

赏

什么是爬虫，怎么玩爬虫？

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置

动态与静态代理IP的区别解析

静态代理IP怎么填写：步骤与示例

在线代理服务器的使用与推荐

海外静态IP的代理选择与配置

如何找到可靠的免费代理服务器

什么是Socks5代理IP及其优势

国外代理服务器的优势及选择建议

什么是代理服务器IP：如何选择合适的

HTTP代理设置详解：一步步配置指南

HTTP代理服务器的设置及应用实例