数据分析 | 数盟
af75497768654fdfabeec1b3b5a08ca7 0

Uber开源Marmaray:基于Hadoop的通用数据摄取和分散框架

- 文章,数据分析,基础架构,数据挖掘 - 阅 39

三年前,Uber采用Apache Hadoop作为数据平台,从而可以跨计算机集群管理数PB的数据。但是,因为我们有很多团队、工具和数据源,所以需要一种可靠的方式来摄取和分散数据。Marmaray是Uber开源的Apache Hadoop数据提取和分散框架。Marmaray由我们的Hadoop平台团队设计和开发,是一…

wKioL1muRTCzKLW1AAB7VVHVCyE315.jpg-wh_651x-s_4174251280 0

开放政府数据价值:内涵、评价与实践

- 文章,数据分析,数据挖掘 - 阅 36

分析开放政府数据的价值与评价,有助于政府数据开放更高效地开展。文章在界定开放政府数据价值内涵与层次划分的基础上,介绍国外开放政府数据价值评价进展,论述开放政府数据价值评价的意义,分析成本/效益理论、利益相关者理论、新公共服务理论作为开放政府数据价值评价支撑理论…

数据科学家 0

数据挖掘领域十大经典算法之—CART算法(附代码)

- 文章,数据分析,数据挖掘 - 阅 108

简介 CART与C4.5类似,是决策树算法的一种。此外,常见的决策树算法还有ID3,这三者的不同之处在于特征的划分: ID3:特征划分基于信息增益 C4.5:特征划分基于信息增益比 CART:特征划分基于基尼指数 基本思想 CART假设决策树是二叉树,内部结点特征的取值为“是…

20170724095946963 0

MapReuce中对大数据处理最合适的数据格式是什么?

- 文章,数据分析,数据挖掘 - 阅 91

在本章的第一章节介绍中,我们简单了解了Mapreduce数据序列化的概念,以及其对于XML和JSON格式并不友好。本节作为《Hadoop从入门到精通》大型专题的第三章第二节将教大家如何在Mapreduce中使用XML和JSON两大常见格式,并分析比较最适合Mapreduce大数据处理的数据格式。 3.2.…

ce5fd91f344ec130f6f42ec265c51839.jpeg-wh_651x-s_2415570986 0

以企业入侵检测日志分析为场景漫谈大数据安全

- 文章,数据分析,数据挖掘 - 阅 86

前言 写这篇文章有三个原因,一是在工作中一直艰难地摸索着这块也曾写过一篇很粗略的大数据之安全漫谈 (想继续吐槽);二是看到了阿里的招聘广告-一起来聊聊这个新职位:大数据安全分析师;三是整个2015的RSA会议 Intelligence Data-Driven 出境率太高了,于是想谈谈。 大数据安全…

wKiom1l4XNWDAuxfAABCT0-KyR0815.jpg-wh_651x-s_2814160241 0

数据采集中的安全与隐私

- 文章,数据分析,数据挖掘 - 阅 91

1. 数据采集面临的安全与隐私挑战 不管是第三方分析工具,还是企业的第一方分析系统,在分析用户行为时,通常都会选择在客户端(一般是安卓、iOS 和 Web 端)采集用户的行为,然后经过打包、压缩等一系列处理步骤,发送给服务端,再进行存储和分析。由于客户端是在用户…

0b09e561ffabe408afebd847617cb798.jpg-wh_651x-s_2784237234 0

大数据时代 “账房先生式”CFO转型迫在眉睫

- 文章,数据分析 - 阅 77

彭春霞/制图 适逢大数据时代,人人身处变革之境。对企业财务总监(CFO)而言,更是如此,在庞大的数据流与信息流冲刷下,如何适应新时代下的新型财务营运模式,如何摸准未来发展的脉络?值得深思。 大数据时代和“云”时代到来,新技术、新科技层出不穷,全球财会制度与管理也…

679e4a1d226f59409cc7b483ab5dfa82.jpg-wh_651x-s_484174679 0

基于大数据的用户标签体系建设思路和应用

- 文章,数据分析,可视化,数据挖掘 - 阅 127

在大数据时代,数据在呈现出海量化、多样化和价值化变化的同时,也改变了传统IT行业的市场竞争环境、营销策略和服务模式。 如何在ZB级的海量数据中获取并筛选有价值的信息,是对IT企业的一大挑战。通过构建客户标签,支撑精准营销服务,是应对上述挑战的有效解决方案。 但是…