Python数据爬虫

499次阅读

Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。 Scrapy 常应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。通常我们可以很简单的通过Scrapy 框架实现一个爬虫，抓取指定网站的内容或图片。

Python数据爬虫

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler 中间的通讯，信号、数据传递等。

Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。

Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests 请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider 来处理，

Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次Scheduler(调度器).

Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方。

Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。

Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和 Spider中间通信的功能组件（比如进入Spider的Responses;和从 Spider出去的Requests）

代码写好，程序开始运行…

1 引擎：Hi！Spider, 你要处理哪一个网站？

2 Spider：老大要我处理xxxx.com。

3 引擎：你把第一个需要处理的URL给我吧。

4 Spider：给你，第一个URL是xxxxxxx.com。

5 引擎：Hi！调度器，我这有request请求你帮我排序入队一下。

6 调度器：好的，正在处理你等一下。

7 引擎：Hi！调度器，把你处理好的request请求给我。

8 调度器：给你，这是我处理好的request

9 引擎：Hi！下载器，你按照老大的下载中间件的设置帮我下载一下这个 request请求

10 下载器：好的！给你，这是下载好的东西。（如果失败：sorry，这个 request下载失败了。然

后引擎告诉调度器，这个request下载失败了，你记录一下，我们待会儿再下载）

11 引擎：Hi！Spider，这是下载好的东西，并且已经按照老大的下载中间件处理过了，你自己处

理一下（注意！这儿responses默认是交给def parse()这个函数处理的）

12 Spider：（处理完毕数据之后对于需要跟进的URL），Hi！引擎，我这里有两个结果，这个是我

需要跟进的URL，还有这个是我获取到的Item数据。

13 引擎：Hi ！管道我这儿有个item你帮我处理一下！调度器！这是需要跟进 URL你帮我处理下。

然后从第四步开始循环，直到获取完老大需要全部信息。

14 管道调度器：好的，现在就做！

注意！只有当调度器中不存在任何request了，整个程序才会停止，（也就是说，对于下载失败的 URL，Scrapy也会重新下载。）

1、安装Scrapy框架

pip install scrapy

scrapy startproject SpiderDemo(项目名)

cd SpiderDemo 先进入项目
scrapy genspider example example.com 创建爬虫样例，会出现example.py样例文件

Python数据爬虫

样例代码解析

Python数据爬虫

在启动之前需要关闭robot协议 settings 文件下： ROBOTSTXT_OBEY = true改为false

启动名为 example 的爬虫 scrapy crawl example

items.py: 表示定义一些获取数据的结构信息

middlewares.py: 表示自定义中间处理过程

pipelines.py: 用来存储及处理数据

settings.py : 用来设置当前的爬虫生成的

example.py: 用来写我们请求及处理过程

在spiderDemo/spiders中新建一个文件JDCommentSpider

寻找url，copy

Python数据爬虫

找header，点击文件后，点击headers，下滑到最下面

Python数据爬虫

import scrapy import re import json

# 创建一个爬虫程序jdpc,定义类名jdpc,并且继承scrapy.Spider class jdpc(scrapy.Spider): # 给爬虫创建名称 name = 'jdpc' # 设置允许的域名 allowed_domains = ['club.jd.com']

header = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.74 Safari/537.36" }

# 重写我们父类 def start_requests(self): ''' yield 返回一个迭代器，可以遍历数据 url: str, 爬取的URL,双斜杠后是域名后后缀是.com callback: Optional[Callable] = None, 用来处理URL返回的 response 的方法 method: str = "GET", request的请求方式 headers: Optional[dict] = None, 请求头，用于模拟浏览器 ''' url = 'https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100009464799&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1' yield scrapy.Request(url=url, headers=self.header, callback=self.myprocess)

def myprocess(self, response: scrapy.http.Response): # 打印请求内容 print(">>>" * 30)

# 通过re.match进行正则匹配，获取完整的json内容 response_match = re.match('(fetchJSON_comment98\()(.*)(\);)', response.text)

# 通过json库转换成JSON对象 json_res = json.loads(response_match.group(2).replace('\n', '').replace('\r', '')) # 获取comments中的value comments = json_res['comments'] # 循环获取每条评论 for comment in comments: creationTime = comment['creationTime'] nickname = comment['nickname'] productColor = comment['productColor'] productSize = comment['productSize'] content = comment['content'] print(content, creationTime, nickname, productColor, productSize)

print(">>>" * 30)

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-27

# Python爬虫

复制链接

赏

Python数据爬虫

一、Scrapy

二、Scrapy架构图(绿线是数据流向)

三、Scrapy的运作流程

四、制作Scrapy爬虫步骤

2、创建一个爬虫项目

3、进入项目，创建一个爬虫样例

4、启动爬虫

5、文件的作用

五、实例

1、创建文件

2、准备工作

2、代码实例

4、运行：在Python终端中输入scrapy crawl jdpc

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置

什么是Socks5代理IP及其优势

HTTP代理服务器的设置及应用实例

海外静态IP的代理选择与配置

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

HTTP代理设置详解：一步步配置指南

国外代理服务器的优势及选择建议

在线代理服务器的使用与推荐

如何找到可靠的免费代理服务器

动态与静态代理IP的区别解析