利用Scrapy架构爬取网页数据步骤 - Python基础教程

国外IP代理推荐：
IPIPGO|全球住宅代理IP（>>>点击注册免费测试<<<）
LoongProxy|全球静态代理IP（>>>点击注册免费测试<<<）
神龙海外|全球动态代理IP（>>>点击注册免费测试<<<）
国内IP代理推荐：
天启|企业级代理IP（>>>点击注册免费测试<<<）
神龙|纯净稳定代理IP（>>>点击注册免费测试<<<）
全民|优质代理IP（>>>点击注册免费测试<<<）

利用Scrapy架构爬取网页数据步骤

1,567次阅读

1、在pycharm开发工具终端输入命令：

scrapy startproject mySpider

利用Scrapy架构爬取网页数据步骤

2、执行命令之后在保存路径下会出现项目：

利用Scrapy架构爬取网页数据步骤

3、在pycharm中新建项目：

利用Scrapy架构爬取网页数据步骤

利用Scrapy架构爬取网页数据步骤

1、构建 item 模型

import scrapy

class ItcastItem(scrapy.Item): name = scrapy.Field() title = scrapy.Field() info = scrapy.Field()

复制以上代码替换掉项目中的items.py里的内容。

利用Scrapy架构爬取网页数据步骤

1. 爬数据

在当前目录下输入命令，将在test002/spiders目录下创建一个名为itcast的爬虫。

scrapy genspider itcast "itcast.cn"

利用Scrapy架构爬取网页数据步骤

2、指定爬取域的范围，在itcast.py中添加以下代码：

import scrapy

class ItcastSpider(scrapy.Spider): name = "itcast" allowed_domains = ("edu.cn") start_urls = ("http://www.kluniv.edu.cn/",)

def parse(self, response): filename = "teacher.html" open(filename, 'wb').write(response.body)

其中需要修改的方法有：

allow_domains = () 是搜索的域名范围，也就是爬虫的约束区域。

start_urls = () 爬取的URL元祖/列表。即所要爬取的网页网址。

3、执行以下命令爬取网页全部源代码信息。

scrapy crawl itcast

利用Scrapy架构爬取网页数据步骤

4、爬取源代码数据

利用Scrapy架构爬取网页数据步骤

以上是scrapy框架爬取网页源代码的步骤！！

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-25

复制链接

赏

相关文章：

版权声明：由Python教程2022-10-25发表，共计828字。

新手QQ群：570568346，欢迎进群讨论

Python51学习

国外IP代理推荐：
IPIPGO|全球住宅代理IP（>>>点击注册免费测试<<<）
LoongProxy|全球静态代理IP（>>>点击注册免费测试<<<）
神龙海外|海外动态代理IP（>>>点击注册免费测试<<<）
国内IP代理推荐：
天启|企业级代理IP（>>>点击注册免费测试<<<）
神龙|纯净稳定代理IP（>>>点击注册免费测试<<<）
全民|国内代理IP（>>>点击注册免费测试<<<）

基于Python的爬虫平台的设计与实现

python爬虫怎么爬同一个网站

基于python实现微信公众号爬虫

python爬虫百度网盘资源

scrapy爬虫遇到相对路径问题的解决

scrapy爬取多页数据

天启|企业级代理IP免费测试>>>>>神龙|纯净稳定代理IP免费测试>>>>>IPIPGO|全球住宅代理IP免费测试>>>>>神龙|国外动态代理IP免费测试>>>>>LoongProxy|全球静态代理IP免费测试>>>>>全民|国内代理IP免费测试