Scrapy架构爬取网页步骤
一、新建项目 (scrapy startproject xxx):新建一个新的爬虫项目
1、在pycharm开发工具终端输入命令:
scrapy startproject mySpider
2、执行命令之后在保存路径下会出现项目:
3、在pycharm中新建项目:
二、明确目标 (编写items.py):明确你想要抓取的目标
1、构建 item 模型
import scrapy
class ItcastItem(scrapy.Item): name = scrapy.Field() title = scrapy.Field() info = scrapy.Field()
复制以上代码替换掉项目中的items.py里的内容。
3、制作爬虫 (spiders/xxspider.py):制作爬虫开始爬取网页
1. 爬数据
在当前目录下输入命令,将在test002/spiders目录下创建一个名为itcast的爬虫。
scrapy genspider itcast "itcast.cn"
2、指定爬取域的范围,在itcast.py中添加以下代码:
import scrapy
class ItcastSpider(scrapy.Spider): name = "itcast" allowed_domains = ("edu.cn") start_urls = ("http://www.kluniv.edu.cn/",)
def parse(self, response): filename = "teacher.html" open(filename, 'wb').write(response.body)
其中需要修改的方法有:
allow_domains = () 是搜索的域名范围,也就是爬虫的约束区域。
start_urls = () 爬取的URL元祖/列表。即所要爬取的网页网址。
3、执行以下命令爬取网页全部源代码信息。
scrapy crawl itcast
4、爬取源代码数据
以上是scrapy框架爬取网页源代码的步骤!!
神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试