1.爬虫是什么?
网络爬虫是一种按照一定的规则、自动的抓取万维网信息的脚本或者程序
简单来说:爬虫是用事先写好的程序去抓取网络上的数据,这样的程序叫爬虫
2.爬虫的分类
按照使用场景来分,可以分为两类:通用爬虫 和 聚焦爬虫
通用爬虫:搜索引擎爬虫(百度)
聚焦爬虫:获取想要的数据
3.爬虫就是在模仿人类的操作
4.爬虫的知识体系和相关工具(必须掌握)
爬虫的知识体系和相关工具
1.概念 利用HTTP协议,从网站采集、提取数据的过程 2.知识结构及路线图 1)web前端 (1)HTML (2)CSS 层级样式表 (3)JS 2)HTTP超文本传输协议 3)Python语言 4)HTTP编程 (1)Python标准库:urllib (2)第三方库:requests(需要安装、下载) 5)数据采集 (1)文本类型 (2)图片 (3)媒体文件(e.g. :音乐、视频) 6)数据提取 (1)XPath (2)正则表达式 (3)Beautiful Soup 7)数据存储 (1)文本文档 (2)MySQL数据库 (3)Excel (4)MongoBD数据库 (5)Redis数据库 8)反爬虫技术应用 (1)图片验证码 (2)滑块验证码 (3)IP代理池 (4)封装请求头 (5)动态内容处理 1>Ajax 2>Selenium (6)JS加密 (7)Cookie加密 (8)CSS加密 (9)Base64加密 9)爬虫框架 (1)Scrapy框架 1>scrapy-redis分布式爬虫 (2)pyspider框架 3.工具 1)环境 (1)windows (2)Linux系统 2)开发 (1)Python 1>pycharm (2)数据库 1>MySQL 2>MongolianDB 3>Redis (3)浏览器 1>谷歌浏览器 2>火狐浏览器
5.HTTP请求
客户端–发送请求(request)–>服务器 客户端<–返回响应(response)–服务器
请求方式:get请求/post请求
get请求:会将请求的参数放到地址栏(URL)/网址后面,不安全
post请求:不会将请求的参数放到网址后面,相对安全
神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试