基础架构 | 数盟社区 | Page 38
12004000 0

大数据分布式系统 Drill 升级成为Apache的顶级项目

- 基础架构 - 阅 2,540

作者 李士窑 Apache Drill是是一个能够对大数据进行交互分析、开源的分布式系统,且基于Google Dremel实现,它能够运行在上千个节点的服务器集群上,且能在几秒内处理PB级或者万亿条的数据记录。Drill能够帮助企业用户快速、高效地进行Hadoop数据查询和企业级大数据分析。Dril…

123 2

【精】从入门到高深,史上最全的Spark综合帖

- 基础架构 - 阅 24,435

什么是Spark Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地…

spark_debug 0

Spark作业代码(源码)IDE远程调试

- 基础架构 - 阅 4,264

我们在编写Spark Application或者是阅读源码的时候,我们很想知道代码的运行情况,比如参数设置的是否正确等等。用Logging方式来调试是一个可以选择的方式,但是,logging方式调试代码有很多的局限和不便。今天我就来介绍如何通过IDE来远程调试Spark的Application或者是Spark的源…

u=4003614593,1969300835&fm=15&gp=0 0

Spark SQL深度理解篇:模块实现、代码结构及执行流程总览

- 基础架构 - 阅 4,534

在2014年7月1日的Spark Summit上,Databricks宣布终止对Shark的开发,将重点放到Spark SQL上。Spark SQL将涵盖Shark的所有特性,用户可以从Shark 0.9进行无缝的升级。日前张包峰的博客上分享了Spark SQL各个模块的实现情况、代码结构、执行流程以及对Spark SQL的理解。 以下为原…

u=1535546616,4148789559&fm=15&gp=0 0

Spark源码分析:多种部署方式之间的区别与联系

- 基础架构 - 阅 4,703

作者:过往记忆 从官方的文档我们可以知道,Spark的部署方式有很多种:local、Standalone、Mesos、YARN…..不同部署方式的后台处理进程是不一样的,但是如果我们从代码的角度来看,其实流程都差不多。 从代码中,我们可以得知其实Spark的部署方式其实比官方文档中介绍的还要多,…

20140613204502171 0

Spark技术内幕:Worker源码与架构解析

- 基础架构 - 阅 5,379

作者:anzhsoft 首先通过一张Spark的架构图来了解Worker在Spark中的作用和地位: Worker所起的作用有以下几个: 1. 接受Master的指令,启动或者杀掉Executor 2. 接受Master的指令,启动或者杀掉Driver 3. 报告Executor/Driver的状态到Master 4. 心跳到Master…

u=1755448020,1585577897&fm=15&gp=0 0

Spark技术内幕:究竟什么是RDD

- 基础架构 - 阅 8,848

作者:anzhsoft RDD是Spark最基本,也是最根本的数据抽象。http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf 是关于RDD的论文。如果觉得英文阅读太费时间,可以看这篇译文:http://shiyanjun.cn/archives/744.html  本文也是基于这篇论文和源码,分析RDD的实现…

u=3377637585,242868366&fm=23&gp=0 0

Spark技术内幕:Stage划分及提交源码分析

- 基础架构 - 阅 6,195

作者:anzhsoft 当触发一个RDD的action后,以count为例,调用关系如下: org.apache.spark.rdd.RDD#count org.apache.spark.SparkContext#runJob org.apache.spark.scheduler.DAGScheduler#runJob org.apache.spark.scheduler.DAGScheduler#submitJob org.apache.sp…