python爬虫入门之Scrapy框架是什么

1,094次阅读

python爬虫中有很多高效的爬虫框架，提起python爬虫框架，那首先想到的肯定是Scrapy框架。Scrapy框架可以很方便的进行web抓取，而且可以根据自己的需求去爬取需要的内容，避免重复下载最近已经下载过的数据，爬虫效率很高。本文向大家介绍python爬虫框架。

一、Scrapy框架是什么？

是一个为了爬取网站数据，提取结构性数据而编写的应用框架。

可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

二、Scrapy框架安装方法：

Windows：在终端输入命令：pip install scrapy；

Mac：在终端输入命令：pip3 install scrapy；

三、Scrapy运行流程：

1、引擎从调度器中取出一个链接(URL)用于接下来的抓取；

2、引擎把URL封装成一个请求(Request)传给下载器；

3、下载器把资源下载下来，并封装成应答包(Response)；

4、爬虫解析Response；

5、解析出实体（Item）,则交给实体管道进行进一步的处理；

6、解析出的是链接（URL）,则把URL交给调度器等待抓取；

四、Scrapy创建工程

终端下：

scrapy startproject PROJECT_NAME
      PROJECT_NAME为工程名字
scrapy genspider SPIDER_NAME SPIDER_URL
      SPIDER_NAME 爬虫文件名、SPIDER_URL  爬取网站地址

五：使用用python爬虫scrapy框架中获取内容

六：使用python爬虫scrapy框架：爬取药网

以上就是python爬虫常用框架Scrapy的介绍，希望能帮助你快速入门python爬虫哦~

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2021-07-18

# Scrapy

复制链接

赏

python爬虫入门之Scrapy框架是什么

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置

HTTP代理设置详解：一步步配置指南

动态与静态代理IP的区别解析

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

什么是代理服务器IP：如何选择合适的

什么是Socks5代理IP及其优势

国外代理服务器的优势及选择建议

Socks5代理配置教程及注意事项