文章 | 数盟社区 | Page 271
20120310153424_rFtVe.thumb_副本 0

平易近人、兼容并蓄——Spark SQL 1.3.0概览

- 基础架构 - 阅 3,763

作者:连城 自2013年3月面世以来,Spark SQL已经成为除Spark Core以外最大的Spark组件。除了接过Shark的接力棒,继续为Spark用户提供高性能的SQL on Hadoop解决方案之外,它还为Spark带来了通用、高效、多元一体的结构化数据处理能力。在刚刚发布的1.3.0版中,Spark SQL的两大…

551c0f18e7069 0

经验分享:如何提高机器学习数据采集的效率

- 数据分析 - 阅 2,888

在新的一年里,很多人都在思考如何利用机器学习(ML)算法来提高产品或服务的质量。 PredictionIO公司与许多公司合作,部署他们的第一个ML系统和大数据基础设施。PredictionIO总结了数据收集任务中的一些好的实践,并愿意与你分享这些经验。 如果你正在考虑采用ML,以正确…

QQ截图20150402191336 0

Apache Spark处理大数据入门,看这一篇就够了

- 基础架构 - 阅 14,229

作者 Srini Penchikala ,译者 丛一 什么是Spark Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。 与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下…

QQ截图20150402180844 0

大数据时代下的用户洞察:用户画像建立(ppt版)

- 数据分析 - 阅 21,911

大数据是物理世界在网络世界的映射,是一场人类空前的网络画像运动。网络世界与物理世界不是孤立的,网络世界是物理世界层次的反映。数据是无缝连接网络世界与物理世界的DNA。发现数据DNA、重组数据DNA是人类不断认识、探索、实践大数据的持续过程。 图1 大数据发展路径 …

013-360x239 0

关于数据分析师职业前景

- 数据分析,职业规划 - 阅 2,161

做数据分析前我们首先要明确分析目的和内容,对于数据分析师而言,他们的进阶需求无外乎是各个企业对数据分析师的职位要求。在前程无忧、中华英才网以及智联招聘上,我们随便搜索下数据分析的岗位信息,都能找到大量类似于下面的一些职位要求信息: 别看岗位职责,任职要…

errors-10 0

五种常用基数估计算法效果实验及实践建议

- 文章 - 阅 3,512

作者:张洋 之前我曾写过一系列关于基数估计(cardinality estimation)算法的文章,文中介绍了一些常用基数估计算法的原理。最近对常用的基数估计算法做了一些实验,这篇文章描述了实验结果,包括这些算法的估计效果及误差状况,主要通过图表展示。通过观察实验数据和可视化…

t01b160ed90f76d125b 1

张洋:主成分分析PCA的数学原理

- 人工智能 - 阅 20,848

作者:张洋PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理…

QQ截图20150402143001_副本 0

飞起来的大象:Hadoop从离线到在线

- 基础架构 - 阅 2,493

时代在变迁,市场在变化,周边的软硬件环境也突飞猛进般的发展,同时企业的业务需求也不断升级,从规模到成本都有较高的要求,这刺激Hadoop生态圈的变革。据AMR研究显示,到2020年Hadoop将拥有502亿美元市场。如此多金诱惑下,各大解决方案提供商对Hadoop生态圈的发力可谓是…