基础架构 | 数盟 | Page 44
0 云计算:淘宝云梯的多NameNode和跨机房之路已关闭评论

云计算:淘宝云梯的多NameNode和跨机房之路

- 基础架构 - 阅 3,121

2013年4月,阿里云梯集群所在的数据中心(IDC机房)的机位已满,无法继续扩充集群。根据当时阿里集团数据量的增长趋势,在可以预见的很短时 间内,集群规模将因为机房机位不足而无法继续扩充。由于当时云梯的Hadoop版本还不支持单集群跨机房分布的功能,所以阿里集团的大数据业务…

12bdc26 开源集群计算环境:Spark 1.1.0发布已关闭评论

开源集群计算环境:Spark 1.1.0发布

- 基础架构 - 阅 1,780

近日,Spark开发团队宣布开源集群计算环境Spark 1.1.0发布,该版本是Spark 1.X系列版本的第二个API兼容版本,它是目前改变最大的一个版本,具有171个开发者。该版本带来了一些操作性和性能的提升,主要体现在核心模块上,扩展了Spark的一些最新模块(MLlib 和Spark SQL)的功能;…

640971 前雅虎CTO:Hadoop扩展过程中的7个危险信号已关闭评论

前雅虎CTO:Hadoop扩展过程中的7个危险信号

- 基础架构 - 阅 1,656

摘要:开源到生产环境使用从来都不是件容易的事情,而大型分布式计算框架Hadoop的实施无疑更加复杂。这里罗列了7种常见问题和解决方案,来自前雅虎首席技术官。 【编者按】本文作者Raymie Stata是Hadoop即服务公司Altiscale的创始人兼CEO,也是雅虎前任CTO,协助雅虎完成开…

1spark_architecture 【技术干货】理解Spark的核心RDD已关闭评论

【技术干货】理解Spark的核心RDD

- 基础架构 - 阅 2,054

与许多专有的大数据处理平台不同,Spark建立在统一抽象的RDD之上,使得它可以以基本一致的方式应对不同的大数据处理场景,包括MapReduce,Streaming,SQL,Machine Learning以及Graph等。这即Matei Zaharia所谓的“设计一个通用的编程抽象(Unified Programming Abstrac…

1410 0

大数据Hadoop技术在银行的七个应用实例

- 基础架构 - 阅 3,040

如今,Hadoop几乎存在于各个方面,其通过利用大数据来分析信息和增加竞争力。许多金融机构和公司已经开始使用Hadoop成功地解决问题,即便他们本没有计划这样做。因为如果他们不这样做,就会面临市场份额损失的巨大风险。以下是一些特别有趣和重要的大数据和Hadoop用例。 诈骗侦…

4e2 0

【Hadoop基础】Hadoop核心架构、Hbase、Hive

- 基础架构 - 阅 3,547

通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。 通过这一阶段的调研总结,从内部机理的角度详细分析,HDFS、MapReduce、Hbase、Hive是如何运行,以及…

8cb3137f 0

十八款Hadoop工具帮你驯服大数据

- 基础架构 - 阅 3,127

Hadoop已经通过自身的蓬勃发展证明,它不仅仅是一套用于将工作内容传播到计算机群组当中的小型堆栈--不,这与它的潜能相比简直微不足道。这套核心的价值已经被广泛证实,目前大量项目如雨后春笋般围绕它建立起来。有些项目负责数据管理、有些负责流程监控、还有一些则提供先进的…

538 0

从Storm和Spark 学习流式实时分布式计算的设计

- 基础架构 - 阅 4,199

背景 最近我在做流式实时分布式计算系统的架构设计,而正好又要参见CSDN博文大赛的决赛。本来想就写Spark源码分析的文章吧。但是又想毕竟是决赛,要拿出一些自己的干货出来,仅仅是源码分析貌似分量不够。因此,我将最近一直在做的系统架构的思路整理出来,形成此文。为什么要参…