爬虫+数据库+大数据分析

779次阅读
没有评论

总体要求
利用python编写爬虫程序,从招聘网站上爬取数据,将数据存入到MongoDB数据库中,将存入的数据作一定的数据清洗后做数据分析,最后将分析的结果做数据可视化。
**

前期准备

**
1、配置大数据需要的环境
(1)配置Hadoop环境:可看博客:
(2)配置zookeeper环境:https://blog.csdn.net/weixin_44701468/article/details/106822805
(3)配置spark环境:
(3)配置hive环境:
(3)配置spark环境:
2、下载好需要的数据库:Mysql、MangoDB
3、准备好需要的数据:
爬虫+数据库+大数据分析
爬取的是招聘网站前程ipipgo,由于爬取的一个数据不是很多,我就爬取了几个分别保存到了几个表中,大约有个百多兆的数据(数据量越多越好),第一次学习

具体实现过程

1、编写爬虫框架,爬取数据
建议博客:https://blog.csdn.net/weixin_43581288/article/details/106950359
里面有需要爬虫的字段,保存到的数据库,以及一些其他的要求
2、数据存储
正确搭建hadoop平台爬虫+数据库+大数据分析
选择flume协议传输形式
爬虫+数据库+大数据分析
启动flame:

flume-ng agent -n agent1 -c conf -f /usr/module/flume/apache-flume-1.6.0-bin/conf/template-hdfs.conf -Dflume.root.logger=DEBUG,console

上传数据至目录:
爬虫+数据库+大数据分析
爬虫+数据库+大数据分析
将数据存储到hdfs:
爬虫+数据库+大数据分析
3、进行hive查询:
1、具体要求(要求:1、利用hive进行分析,2、将hive分析结果利用sqoop技术存储到mysql数据库中,并最后显示分析结果。):
(1)分析“数据分析”、“大数据开发工程师”、“数据采集”等岗位的平均工资、最高工资、最低工资,并作条形图将结果展示出来;
爬虫+数据库+大数据分析
爬虫+数据库+大数据分析
爬虫+数据库+大数据分析
(2)分析“数据分析”、“大数据开发工程师”、“数据采集”等大数据相关岗位在成都、北京、上海、广州、深圳的岗位数,并做饼图将结果展示出来。
爬虫+数据库+大数据分析
爬虫+数据库+大数据分析
爬虫+数据库+大数据分析
(3)分析大数据相关岗位1-3年工作经验的薪资水平(平均工资、最高工资、最低工资),并做出条形图展示出来;
爬虫+数据库+大数据分析
爬虫+数据库+大数据分析
爬虫+数据库+大数据分析
(4)分析大数据相关岗位几年需求的走向趋势,并做出折线图展示出来;
爬虫+数据库+大数据分析
总结:
这个项目使用爬虫、数据库、大数据分析等方法来完成,对爬虫的认识,使用、数据库(mangodb)的使用、大数据知识的运用都是很好的。爬虫有爬虫框架的搭建,代码的编写对我来说都是一个不小的难题,但通过查资料、和同学的探讨让我解决了这些问题,数据库(mangodb)使用还不是特别熟练,大数据各种环境的搭建也是一个不小的难题,配置的环境也是不少,我也是用来不少的时间来做这个事,在这其中还是有的。

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

相关文章:

版权声明:Python教程2022-10-27发表,共计1143字。
新手QQ群:570568346,欢迎进群讨论 Python51学习