文章 | 数盟社区 | Page 283
t01a74493b2508e266a 0

Spark新年福音:一个用于大规模数据科学的API——DataFrame

- 基础架构 - 阅 3,270

文章翻译自Introducing DataFrames in Spark for Large Scale Data Science,作者Reynold Xin(辛湜,@hashjoin),Michael Armbrust,Davies Liu。 以下为译文 今天,我们正式宣布Spark新的API——DataFrame 。作为2014–2015年Spark最大的API改动,DataFrame能够使得大数据…

t0149f076068d53ae40 0

五大常用算法之二:动态规划算法

- 文章 - 阅 2,776

作者:红脸书生 一、基本概念 动态规划过程是:每次决策依赖于当前状态,又随即引起状态的转移。一个决策序列就是在变化的状态中产生出来的,所以,这种多阶段最优化决策解决问题的过程就称为动态规划。 二、基本思想与策略 基本思想与分治法类似,也是将待求解的问…

201407171112 0

Spark SQL深度理解

- 基础架构 - 阅 3,809

作者 张包峰 Catalyst Catalyst是与Spark解耦的一个独立库,是一个impl-free的执行计划的生成和优化框架。 目前与Spark Core还是耦合的,对此user邮件组里有人对此提出疑问,见mail。 以下是Catalyst较早时候的架构图,展示的是代码结构和处理流程。 Catalyst定位 其他系…

t01144d500f6ea31230 0

五大常用算法之一:分治算法

- 文章 - 阅 2,346

作者:红脸书生 一、基本概念 在计算机科学中,分治法是一种很重要的算法。字面上的解释是“分而治之”,就是把一个复杂的问题分成两个或更多的相同或相似的子问题,再把子问题分成更小的子问题……直到最后子问题可以简单的直接求解,原问题的解即子问题的解的合并。这个技巧…

t0106f0f4d3f42f5e17 0

Spark SQL 数据源 API:Spark平台的统一数据接入

- 基础架构 - 阅 3,090

作者:Michael Armbrust 译者u011136668 自从Spark 1.0版本的Spark SQL问世以来,它最常见的用途之一就是作为从Spark平台上面获取数据的一个渠道。 早期用户比较喜爱Spark SQL提供的从现有Apache Hive表以及流行的Parquet列式存储格式中读取数据的支持。之后,Spark SQL还…

t015cafda57e4dbb683 0

一个应用实例详解卡尔曼滤波及其算法实现

- 文章 - 阅 3,697

为了可以更加容易的理解卡尔曼滤波器,这里会应用形象的描述方法来讲解,而不是像大多数参考书那样罗列一大堆的数学公式和数学符号。但是,他的5条公式是其核心内容。结合现代的计算机,其实卡尔曼的程序相当的简单,只要你理解了他的那5条公式。 在介绍他的5条公式之前,先让…

t0177c2605a7f5ee76e 0

算法的相关理论概述

- 文章 - 阅 2,302

作者:Hoking 算法概述 从字面意义上理解,算法(Algorithm)就是用于计算的方法,并通过这种方法可以达到预期的计算结果。算法的专业解释:算法是解决实际问题的一种精确描述的方法,算法是对特定问题的求解步骤的一种精确描述方法。但更广泛认可的算法专业定义:算法是模型分…

iuaeAj3 0

Apache HBase高可用性的新阶段

- 基础架构 - 阅 2,405

Apache HBase是一个面向线上服务的数据库,其原生支持Hadoop的特性,使其成为那些基于Hadoop的扩展性和灵活性进行数据处理的应用显而易见的选择。 在Hortonworks数据平台(HDP  http://zh.hortonworks.com/hdp/) 2.2中,HBase的高可用性得到了长足的发展,能够保证其上运行应…