Python数据爬取

4,569次阅读

没有评论

一.数据爬取介绍
- 1.数据采集
- 2.常用数据爬取工具
二.Scrapy爬虫框架
- 1.安装配置Scrapy框架
- 2.Debug爬虫工程
- 3.Scrapy框架组成
- 4.Scrapy返回爬取页面数据
- 5.爬取动态网页
- 6.网站反爬虫

数据来源

从网上爬取数据（crawling）
从本地系统收集数据（scraping）:文件、数据库等

网络数据采集模型
Python数据爬取

第三方库实现爬取

Requests、lxml:灵活，简单

PySpider爬虫框架

提供WebUI界面编写及管理爬虫
上手快，学习简单
对Windows操作系统支持很差

Scrapy爬虫框架

功能强大
可定制性强
多线程，爬取效率高

安装Scrapy

conda install scrapy

配置Scrapy环境变量

将Anaconda的Scripts文件夹加入到Path环境变量中

创建scrapy项目的命令

scrapy startproject 新工程名

创建Spider

scrapy genspider 爬虫名 start_url
修改parse()方法，在控制台输出文本
启动Spider
scrapy crawl 爬虫名

使用Python脚本执行命令行启动爬虫

在项目根目录添加脚本文件
调用Scrapy框架的命令行执行方法启动爬虫: cmdline模块 execute()方法

from scrapy.cmdline import execute execute('scrapy crawl examplespider'.split())

调试爬虫

在parse()方法中设置断点
使用Debug模式调试项目

spiders文件夹

定义爬虫文件

items.py

定义框架内数据传输格式

pipelines.py

数据保存模块

middlewares.py

中间件模块

settings.py

框架配置模块

Python数据爬取
执行顺序：

1.Spider的yield将requests发送给Engine
2.Engine对requests不做任何的处理就发送给Scheduler
3.Scheduler（url调度器），生成requests交给Engine
4.Engine拿到requests，通过middleware进行层层过滤发送给Downloader
5.downloader在网上获取到response数据之后，又经过middleware进行层层过滤发送给Engine
6.Engine获取到response之后，返回给Spider，Spider的parse（）方法对获取到的response数据进行处理解析出items或者requests
7.将解析出来的items或者requests发送给Engine
8.Engine获取到items或者requests，将items发送给ITEMPIPELINES，将requests发送给Scheduler只有当调度器中不存在任何的requests的时候，整个程序才会停止（也就是说，对于下载失败的URL，scrapy也会重新进行下载）

通过解析方法返回爬取页面数据

parse()方法的response参数
response对象常用属性和方法

属性或方法作用

url	当前返回数据所对应的页面url
status	http请求状态码
meta	用于request与response之间的数据传递
body	返回页面html源码，如用纯正则表达式匹配数据需要获得页面html源码
xpath()	使用xpath选择器解析网页
css()	使用css选择器解析网页

在Scrapy爬虫框架中提取网页数据的方法

xpath选择器
用于选择XML文档中的节点的语言，可以与HTML一起使用
css选择器
用于将样式应用于HTML文档的语言
将样式与特定的HTML元素相关联
Scrapy中css选择器的代码最后也会转换成xpath选择器的代码
正则表达式
提取非标签内容

xpath语法

xpath:使用路径表达式来选取 XML 文档中的节点或节点集

表达式描述

nodename	选取的节点名
/	从根节点选取
//	选取所有符合条件的节点，而不考虑它们的位置
.	选取当前节点
…	选取当前节点的父节点
@	选取属性

路径表达式举例

路径表达式结果

/bookstore	选取根元素 bookstore
/bookstore/book	选取属于 bookstore 的子元素的所有 book 元素
//book	选取所有 book 子元素，而不管它们在文档中的位置
/bookstore//book	选择属于 bookstore 元素的后代的所有 book 元素，而不管它们位于 bookstore 之下的什么位置
//@lang	选取名为 lang 的所有属性
/bookstore/book/text()	选取属于 bookstore 的子元素的所有 book 元素的文本

谓语

谓语用来查找某个特定节点或者包含某个指定的值的节点
谓语被嵌在方括号中

路径表达式结果

/bookstore/book[1]	选取属于 bookstore 子元素的第一个 book 元素
//title[@lang]	选取所有拥有名为 lang 的属性的 title 元素
//title[@lang=‘eng’]	选取所有拥有值为 eng 的 lang 属性的 title 元素

xpath选择器

Scrapy中xpath选择器
基于lxml库
获取选择器的网页数据
extract()
提取selector列表中的网页数据
如果列表为空，取下标为0的网页数据会抛出异常
extract_first()
提取selector列表中下标为0的网页数据
如果列表为空，不会抛出异常，返回None

爬取从页面提取的URL

使用场景
详情页爬取
多层级目录爬取
提取URL发起HTTP请求
构造request对象
指定HTTP请求的URL
指定处理这个页面的回调方法
关闭去重标记
使用yield返回request对象
request与对应的response传递数据
meta字典

Scrapy的item模块

item的作用
定义框架中数据传输的形式
定义item
定义Item类并继承scrapy.Item
定义变量
变量名
变量类型
scrapy.Field()
使用item
使用字典的方式给item赋值
item[“变量名”] = 赋值
使用yield返回item

将爬取数据保存到文件中

Feed exports
将数据导出成常用数据格式的方法
默认支持的格式
JSON
JSON lines
CSV
XML
使用Feed exports的方法
在命令行中使用-o来调对应的Feed exports
在settings.py中配置Feed exports

FEED_FORMAT = 'CSV' FEED_URI = ‘quotes.csv’

查看动态网页代码

按住F12返回的html结果
鼠标右键查看页面源代码:淘宝的商品详情页中的原始html中居然没价格

动态网页的特点

渲染后的html源码和渲染前的html源码是不同的

Python数据爬取

爬虫处理动态网页的方法

解决方法
分析js请求以及html源码去发现动态加载数据的位置
找到ajax并去请求该接口并解析该请求的返回
分析步骤
使用Chrome的Network监控网络请求
反复触发动态加载，分析出数据接口url

网站最主要的反爬虫原因

不遵守规范的爬虫会影响网站的正常使用

网站反爬虫的其他原因

网站上的数据就是公司的重要资产
爬虫对网站的爬取会造成网站统计数据的污染

网站反爬虫手段举例

根据访问IP频率封禁IP:一个IP某一个时刻访问频率太频繁，则封禁
设置账号登陆时长，账号访问过多封禁
弹出数字验证码和图片确认验证码
对API接口的限制

爬虫的反反爬策略

反反爬的总体思想
将爬虫伪装成自然人的浏览行为
自然人浏览的特点
访问频率不会非常的高
使用的是浏览器进行访问
网站设置登录要求后仍能正常使用
可以完成验证操作
Scrapy反反爬功能实现
爬虫配置settings.py
爬虫框架中间件

模拟自然人访问频率

配置settings.py控制爬虫爬取行为
设置爬取间隔
设置并发爬取量

相关配置如下

配置默认值说明

DOWNLOAD_DELAY	0	单位秒,爬取间隔时间为(0.5~1.5)*DOWNLOAD_DELAY
CONCURRENT_REQUESTS	16	Scrapy downloader 并发请求的最大值
CONCURRENT_REQUESTS_PER_DOMAIN	16	对单个网站进行并发请求的最大值
CONCURRENT_REQUESTS_PER_IP	0	对单个IP进行并发请求的最大值

User Agent介绍

User Agent的本质
一个特殊字符串头
User Agent的作用
使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等
查看浏览器UA的方法
查看Scrapy爬虫UA的方法
scrapy shell https://www.qq.com
request.headers

Scrapy设置随机UA

安装UA生成库
pip install user_agent
编写的UserAgent中间件的类
重写process_request()方法
设置settings.py文件设置相应的配置和属性
在DOWNLOADER_MIDDLEWARES下配置中间件
启用自定义UserAgent中间件
禁用Scrapy默认的UserAgnet中间件

Cookie的介绍

Cookie保存的位置
总是保存在用户客户端浏览器中
Cookie的有效性
最短的浏览器关闭后就消失了
最长是可以一直保存，直到被删除
Cookie就是用来绕开HTTP的无状态性的
服务器可以设置或读取Cookies中包含信息，借此维护用户跟服务器的状态
Cookie常用于保持用户登录状态
打开网页时请求中携带的Cookie
打开网页时服务器设置客户端的Cookie

使用Cookie使爬虫突破登录限制

使用Cookie实现爬取需要登录的信息
定义Cookie字符串
在构造request时设置Cookie属性
cookies=SCRAPE_COOKIE
使用Cookie登录的优缺点
优点：
不需要知道登录url和表单字段以及其他参数
不需要频繁登录输入用户名和密码
缺点：
Cookie有过期时间

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-27

# Python爬虫

复制链接

赏

Python数据爬取

文章目录

一.数据爬取介绍

1.数据采集

2.常用数据爬取工具

二.Scrapy爬虫框架

1.安装配置Scrapy框架

2.Debug爬虫工程

3.Scrapy框架组成

4.Scrapy返回爬取页面数据

5.爬取动态网页

6.网站反爬虫

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置

Socks5代理配置教程及注意事项

静态代理IP怎么填写：步骤与示例

HTTP代理服务器的设置及应用实例

在线代理服务器的使用与推荐

动态与静态代理IP的区别解析

什么是Socks5代理IP及其优势

如何找到可靠的免费代理服务器

什么是代理服务器IP：如何选择合适的

HTTP代理设置详解：一步步配置指南

国外代理服务器的优势及选择建议