1.什么是网络爬虫
网络爬虫是按照一定规则自动的抓取万维网信息的程序或脚本。通俗理解的话网络爬虫是一个模拟人类请求网站行为的程序。可以自动请求网页、抓取特定数据,然后使用一定规则提取有价值的数据。
网络爬虫按照功能来分类的话主要分为四类:通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。
通用网络爬虫
通用爬虫又称全网爬虫,爬行对象从一些种子 URL 扩充到整个 Web,通用爬虫是搜索引擎重要的组成部分之一,如(百度、谷歌、搜狗等)。主要是将互联网上网页下载到本地,形成互联网内容的镜像备份。
聚焦网络爬虫
聚焦网络爬虫又称主题网络爬虫,是面向特定需求的一种网络爬虫程序,他与通用爬虫的区别在于:聚焦爬虫在实施网页抓取的时候会对内容进行筛选和处理,尽量保证只抓取与需求相关的网页信息。例如:爬取豆瓣电影评分数据,只需要名称、演员、时间、评分、评价等基本信息即可。
增量式网络爬虫
增量式网络爬虫是指对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫,它能够在一定程度上保证所爬行的页面是尽可能新的页面。例如:想获取赶集网的招聘信息,以前爬取过的数据没有必要重复爬取,只需要获取更新的招聘数据,这时候就要用到增量式爬虫。
深层网络爬虫
Web 页面按存在方式可以分为表层网页和深层网页。表层网页是指传统搜索引擎可以索引的页面,以超链接可以到达的静态网页为主构成的Web页面。深层网页是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的 Web 页面也就是经过拦截处理。例如用户注册后内容才可见的网页就属于深层网页。例如: 爬取百度贴吧或者论坛中的数据,必须在用户登录后,有权限的情况下才能获取完整的数据。
介绍几个案例:
1.googlebot
Googlebot指的是Google的机器人,或蜘蛛。一般Google会让不同的Googlebot来对你的网页内容进行处理,其中包括:
1.抓取文字内容,获取内容来保存于Google网页搜索和新闻搜索的数据库。
2. Googlebot-mobile:它的功能是抓取网页中的文字内容来让手机用户搜索。
3. Googlebot-Image:抓取网页内的图片内容,保存入Google 图片搜索数据库。
4. Mediapartners-Google:抓取网页中的文字内容,用于Google Adsense分析关键词。只有投放了Google Adsense的网页才会被Mediapartners-Google探测器爬取。
5. Adsbot-Google:抓取网页中的文字内容,用于为Google AdWords提供参考。只有Google AdWords的目标网页才会被Adsbot-Google 探测器爬取。
(二)八爪鱼采集器
八爪鱼是一种数据采收工具不过是付费软件,简单来讲,使用八爪鱼可以非常容易的从任何网页精确采集你需要的数据,生成自定义的、规整的数据格式。数据包括金融数据,如季报,年报,财务报告、各大新闻门户网站实时监控、监控各大社交网站,博客,自动抓取企业产品的相关评论;收集最新最全的职场招聘信息;监控各大地产相关网站,采集新房二手房最新行情;发现和收集潜在客户信息。总之是做数据挖掘项目与大数据必备神器!
(三)惠惠购物助手
身边很多小伙伴说双11的时候很多淘宝店家的商品不仅不减价反而加价,莫名其妙被坑了一笔,然而惠惠购物助手正是防止被坑的神器。在您网购浏览商品的同时,自动对比全网电商同款商品价格,并提供商品价格历史如图:
(四)抢票软件
抢票软件是互联网公司根据春运特定时期,用户买票难问题而研发的一种产品,抢票软件是一款基于浏览器的一种插件。春运热潮带动下,据说能增加买到车票的概率,引来无数网友下载。在淘宝也可以找到一些付费的抢票软件如”12306订票助手”,卖的极其火爆,最多一个月销售200多件,不过需要注意的是很多抢票软件存在信息泄露的问题,千万不要被盗手机号与身份证号码–
(五)数据分析与研究
数据冰山是一个专注于多元化数据采集、存储、建模、挖掘与可视化的专栏项目,比如最近就对王思聪抽奖事件进行了分析,下面这张图展示了王思聪抽奖活动在网络空间上,此次事件的传播图以及传播级数分布,从图中看出王思聪这条微博呈现出典型的多中心的特征:经过一系列领域大V转发,形成多个次级传播中心。
图片来自于知乎作用陶鏖
总结:本小结简单介绍了爬虫的基本知识、特点与类型,下一节将主要介绍爬虫的先修知识。
爬虫小课堂篇
由于在爬虫基础篇不知道大家水平如何所以假设大家都是纯小白阶段,手把手教学,前面三篇文章将带大家安装相对应的环境而不是带大家敲代码,前面部分先教大家安装python3.X、pychram、还有对应的爬虫库为后续实战项目做准备。
Python安装
因为Python是跨平台的,它可以运行在Windows、Mac和各种Linux/Unix系统上。在Windows上写Python程序,放到Linux上也是能够运行的。
要开始学习Python编程,首先就得把Python安装到你的电脑里。安装后,你会得到Python解释器(就是负责运行Python程序的),一个命令行交互环境,还有一个简单的集成开发环境。
2.x还是3.x
目前,Python有两个版本,一个是2.x版,一个是3.x版,这两个版本是不兼容的,因为现在Python正在朝着3.x版本进化,所以我们直接使用python3.6版本进行实战。
Python的安装
1.进入Python官方网站下载安装包链接:https://www.python.org/downloads/
根据自己的对应系统选择安装类型
如果你是系统是windows64位或者你想下载其他版本的安装包—— 请点击Downloads > Windows 下载你需要的版本安装包
注:64位版本不可以安装在32位的系统上,但是32位版本可以安装在64位的系统上,下面有对应版本选择3.6版本对应的python点击Download。
2.将Python安装到你的windows操作系统上
我安装的是64位系统的安装包,所以显示为 Install Python3.6.2(64-bit) ,请根据windows系统需求进行安装
这里以 自定义安装 为例
注: 请选中 把Python添加到环境变量,这样以后在windows命令提示符下面也可以运行Python
如果没有特殊需求,就全选上。万一用到了呢~ o(▽)o 点击 Next 进行下一步
选中 安装目录会改变,请根据自己的需求修改安装路径 再点击 Install 进行下一步
正在安装…
安装完成!!
Python的运行
1.在系统运行下面输入IDLE环境运行
1.1 使用IDEL 在windows系统下搜索IDLE (以W10系统为例)
使用Python语法中的 print(‘爬虫之道1024’ ); 语法进行打印
打开命令提示符
打开命令窗口输入python -V大家看到的应该是python 3.6.0我是3.7版本所以显示3.7,如果显示版本及安装成功,表明python环境变量配置完成。
还可以使用代码编辑器例如:记事本、Notepapad++、SublimeText3 等等
神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试