数盟 | Page 504
u=1755448020,1585577897&fm=15&gp=0 0

Spark技术内幕:究竟什么是RDD

- 11,049 次阅读 - 基础架构

作者:anzhsoft RDD是Spark最基本,也是最根本的数据抽象。http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf 是关于RDD的论文。如果觉得英文阅读太费时间,可以看这篇译文:http://shiyanjun.cn/archives/744.html  本文也是基于这篇论文和源码,分析RDD的实现…

u=3377637585,242868366&fm=23&gp=0 0

Spark技术内幕:Stage划分及提交源码分析

- 8,042 次阅读 - 基础架构

作者:anzhsoft 当触发一个RDD的action后,以count为例,调用关系如下: org.apache.spark.rdd.RDD#count org.apache.spark.SparkContext#runJob org.apache.spark.scheduler.DAGScheduler#runJob org.apache.spark.scheduler.DAGScheduler#submitJob org.apache.sp…

u=2456756474,1446374777&fm=15&gp=0 0

快速了解Scala技术栈

- 6,250 次阅读 - 基础架构,编程语言

作者 张逸 我无可救药地成为了Scala的超级粉丝。在我使用Scala开发项目以及编写框架后,它就仿佛凝聚成为一个巨大的黑洞,吸引力使我不得不飞向它,以至于开始背离Java。固然Java 8为Java阵营增添了一丝亮色,却是望眼欲穿,千呼万唤始出来。而Scala程序员,却早就在享…

u=1746614582,929527462&fm=23&gp=0_副本 0

Scala更适合用于大数据处理和机器学习

- 7,092 次阅读 - 基础架构,编程语言

作者:郭蕾 Scala是一门现代的多范式编程语言,设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala允许用户使用命令和函数范式编写代码。Scala运行在Java虚拟机之上,可以直接调用Java类库。对于新手来说,Scala相对比较复杂,其看起来灵活的语法并不容易掌握,但…

t01bf89c135830d3ad1 0

Scala基本语法初探

- 5,976 次阅读 - 基础架构,编程语言

作者:come_for_dream 学习Spark不得不学习Scala这门神奇的语言,这次就匆匆忙忙做下总结吧。 Scala是一种基于JVM的语言,是函数是编程和面向对象编程的结合,是一个静态语言,纯静态语言。因为会生成和java相同的class字节码所以它与Java之间可以互相调用。 Scala有一…

t01747d924ec0a3ad21 0

Spark on YARN集群模式作业运行全过程分析

- 4,319 次阅读 - 基础架构

下面是分析Spark on YARN的Cluster模式,从用户提交作业到作业运行结束整个运行期间的过程分析。 客户端进行操作 1、根据yarnConf来初始化yarnClient,并启动yarnClient 2、创建客户端Application,并获取Application的ID,进一步判断集群中的资源是否满足executor和Applica…

t0106f0f4d3f42f5e17 0

Spark的硬件配置

- 3,778 次阅读 - 基础架构

作者:张逸 从MapReduce的兴起,就带来一种思路,就是希望通过大量廉价的机器来处理以前需要耗费昂贵资源的海量数据。这种方式事实上是一种架构的水平伸缩模式——真正的以量取胜。毕竟,以现在的硬件发展来看,CPU的核数、内存的容量以及海量存储硬盘,都慢慢变得低廉而高效…

QQ截图20141128193407_副本 0

Python 2.7.x 和 3.x 版本的重要区别

- 3,023 次阅读 - 编程语言

许多Python初学者都会问:我应该学习哪个版本的Python。对于这个问题,我的回答通常是“先选择一个最适合你的Python教程,教程中使用哪个版本的Python,你就用那个版本。等学得差不多了,再来研究不同版本之间的差别”。 但如果想要用Python开发一个新项目,那么该如何选择Python…