Python Scrapy爬虫框架

2,515次阅读
没有评论

Python Scrapy爬虫框架

Scrapy 是用 Python 实现的爬虫应用框架,Scrapy 经常被应用在数据挖掘、信息处理等方面。

借助 Scrapy 框架,只需编写很少的代码,即可实现一个爬虫,从而提取某个网站或者某组网站的相关格式化的数据。

Scrapy 最初是为了页面抓取所设计的,但是也可以应用在获取 API 所返回的数据(例如Amazon Associates Web Services)。作为通用的网络爬虫,其具有以下特点使用简单、功能强大、易于扩展,速度快、支持 Windows、Linux、macOS 多个平台等特点。

本章内容:

1. Scrapy安装(针对不同平台)

2. 网络爬虫的工作原理

3. Python编写一个简单的爬虫

4. Scrapy框架的运行流程

5. Scrapy Spider类的用法

6. Scrapy selector选择器用法详解

7. Scrapy配置项用法详解

8. Scrapy命令行用法精讲