如何利用R语言实现spark大数据分析与可视化 | 数盟社区

作者:郭应文,目前就职于浦发银行信用卡中心大数据项目部,从事Spark算法与数据挖掘工作,2010年毕业于东华大学自动化专业,本科学位,曾获美国大学生数学建模竞赛( MCM)及国家大学生数学建模竞赛等多项奖项。

杨思义,目前就职于浦发银行信用卡中心大数据项目部, Spark平台工程开发负责人,2014年毕业于山东大学软件工程专业,硕士学位,三年Spark工程开发经验。


 

系统概述

QQ图片20170122140942

在日常业务分析中, R是非常常用的分析工具,而当数据量较大时,用R语言需要需用更多的时间来完成训练模型,spark作为大规模数据计算框架,采用内存计算,可以短时间内完成大量的数据的处理及计算模型,但缺点是不能图形展示, R语言的sparkly则提供了R语言和Spark的接⼝,实现了在数据量大的情况下,应用Spark的快速数据分析和处理能力结合R语言的图形化展示功能,方便业务分析,模型训练,同时R语言还可以与Hadoop,HDFS,Hbase,redis,MongoDB等大数据平台数据实现交互,以及作业递交与分析,本文主要介绍平台的架构方法,以及各个组件基本使用方法。

 

QQ图片20170122144437


系统构建与调试

基础环境介绍:

操作系统 RHEL 6.5 / CentoOS 6.5

已安装软件 Hadoop Hbase Hive Spark Redis MongoDB Mysql 等大数据应用软件

网络环境 无外网不能在线下载软件包,只能上传

QQ图片20170122150519

QQ图片20170122151142

QQ图片20170122151848

QQ图片20170122153248

QQ图片20170122153841

QQ图片20170122154240

QQ图片20170122154522QQ图片20170122155008

QQ图片20170122155338

注:转载文章均来自于公开网络,仅供学习使用,不会用于任何商业用途,如果侵犯到原作者的权益,请您与我们联系删除或者授权事宜,联系邮箱:contact@dataunion.org。转载数盟网站文章请注明原文章作者,否则产生的任何版权纠纷与数盟无关。
期待你一针见血的评论,Come on!

不用想啦,马上 "登录"  发表自已的想法.