这个看情况吧,保存到excel、mysql都行,如果数据量少的话,可以存到excel中,如果数据量多的话,可以存到mysql数据库中,下面我大概介绍一下如何将爬取到的数据存储到excel和mysql数据库中,实验环境win7+python3.6+pycharm5.0,主要步骤如下:
1.为了方便演示,这里以爬取人人贷上面的债券数据为例,如下,主要爬取年利率、借款标题、期限、金额、进度这5个字段信息:
分析这个页面,我们可以知道,这个页面时异步加载数据的,数据存储在一个json文件中,我们只要获取到这个json文件的url地址,解析这个json文件,就能获取到我们需要的数据,如下:
2.针对这个json文件的结构,对应的解析代码如下,很简单,主要是获取上面5个字段的信息并保存到一个list列表中,以供后面excel或mysql的存储:
程序运行截图如下,已经成功获取到数据,并且在控制台打印出来:
3.将获取的数据保存到excel中,这里主要用到xlwt这个包,专门针对写入excel,使用起来很方便,也很简单:安装的话,直接输入命令'pip install xlwt'就行,如下:
对应的数据保存代码如下,其实就是循环数据,再写入excel单元格中,这里爬取了前20页数据:
打开保存的rrd_info.xls文件,截图如下,说明已经成功将数据保存到excel中了,其中第1列为利率、第2列为借款标题、第3列为期限、第4列为金额、第5列为进度:
4.将获取到的数据插入到mysql中,这里主要用到pymysql这个包,pymysql这个包主要用于操作mysql数据库,包括增删改查等,使用起来也很简单。安装pymysql,直接输入命令'pip install pymysql'就行,如下:
新建一个rrd数据表,主要设计如下:
对应的插入mysql数据库代码如下,与excel类似,循环插入数据库就行,注意,需要commit提交数据库,不然数据库不会增加数据,这里爬取了前40页数据:
程序运行截图如下,已经成功将数据插入到mysql数据库中:
至此,我们就完成了数据的整理和保存。总的来说,保存到excel和mysql中都行,实现起来也挺简单的,只要你有一定的python基础,多加练习,很快就能掌握的,当然你也可以保存到其他文件或数据库中都行,像csv或mongodb等,这里就不详细说明了,网上也有相关教程,可以参考学习一下,希望以上分享的内容能对你有所帮助吧。
神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试