网络爬虫

797次阅读

在这个用数据说话的时代，数据是一件极其重要的事情，怎样才能抓取到完整以及全面的数据呢？这并不是一件容易的事情。

如果想要做好大数据的分析，单单依靠一己之力或者是周边的数据是远远不够的，还需要借助“神秘的外部力量”。

这个时候，互联网上的资源就非常关键了，从网络上爬取数据资源，就成为了至关重要的一个环节。

那到底什么是网络爬虫呢？

网络爬虫也叫网络蜘蛛，即Web Spider，名字非常形象。

如果把互联网比喻成一个蜘蛛网，那么Web Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，一直循环下去，直到把整个网站所有的网页都抓取完为止。

如果把整个互联网当成一个网站，那么网络蜘蛛可以用这个原理把互联网上所有的网页都抓取下来。

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-25

复制链接

赏

HTTP代理设置详解：一步步配置指南