爬虫基本概念（新手必看）

568次阅读

1.爬虫是什么？
网络爬虫是一种按照一定的规则、自动的抓取万维网信息的脚本或者程序
简单来说：爬虫是用事先写好的程序去抓取网络上的数据，这样的程序叫爬虫

2.爬虫的分类
按照使用场景来分，可以分为两类：通用爬虫和聚焦爬虫
通用爬虫：搜索引擎爬虫（百度）
聚焦爬虫：获取想要的数据

3.爬虫就是在模仿人类的操作

4.爬虫的知识体系和相关工具（必须掌握）
爬虫的知识体系和相关工具

1.概念利用HTTP协议，从网站采集、提取数据的过程 2.知识结构及路线图 1）web前端（1）HTML （2）CSS 层级样式表（3）JS 2）HTTP超文本传输协议 3）Python语言 4）HTTP编程（1）Python标准库：urllib （2）第三方库：requests（需要安装、下载） 5）数据采集（1）文本类型（2）图片（3）媒体文件（e.g. ：音乐、视频） 6）数据提取（1）XPath （2）正则表达式（3）Beautiful Soup 7）数据存储（1）文本文档（2）MySQL数据库（3）Excel （4）MongoBD数据库（5）Redis数据库 8）反爬虫技术应用（1）图片验证码（2）滑块验证码（3）IP代理池（4）封装请求头（5）动态内容处理 1>Ajax 2>Selenium （6）JS加密（7）Cookie加密（8）CSS加密（9）Base64加密 9）爬虫框架（1）Scrapy框架 1>scrapy-redis分布式爬虫（2）pyspider框架 3.工具 1）环境（1）windows （2）Linux系统 2）开发（1）Python 1>pycharm （2）数据库 1>MySQL 2>MongolianDB 3>Redis （3）浏览器 1>谷歌浏览器 2>火狐浏览器

爬虫基本概念（新手必看）

5.HTTP请求

客户端–发送请求（request）–>服务器客户端<–返回响应（response）–服务器

请求方式：get请求/post请求
get请求：会将请求的参数放到地址栏（URL）/网址后面，不安全
post请求：不会将请求的参数放到网址后面，相对安全
爬虫基本概念（新手必看）

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-24

# Python爬虫

复制链接

赏

爬虫基本概念（新手必看）

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置