十一月 | 2014 | 数盟社区
wKioOVKC7VeRvO9wAAB26wdZc-c736 0

Rsnapshot:一款面向Linux远程文件系统备份工具

- 未分类 - 2,653 次阅读

Rsnapshot是一款开源本地/远程文件系统备份实用工具,它采用Perl语言编写而成,充分利用了Rsync和SSH程序的功能,可以针对Linux/Unix文件系统创建预定的增量备份,同时只占用了一套单个完全备份的空间(外加变化的数据),并将本地驱动器上的那些备份存放到不同的硬盘驱动器、外…

28a489da8cda720.jpg_600x600 0

2014年最让人瞩目的14个科技MVP

- 未分类 - 2,027 次阅读

美国科技博客TechCrunch回顾了这一年科技行业的发展,选出了2014年最让人瞩目的14个科技MVP。其中包括遍地开花的Wi-Fi、智能手表的兴起、无人机的广泛应用、以及日益便捷的网络购物。 1.康卡斯特并购时代华纳有线 需要声明的是,这项并购交易不是我们应该感谢的…

123 2

【精】从入门到高深,史上最全的Spark综合帖

- 基础架构 - 24,447 次阅读

什么是Spark Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地…

20141029094547230 0

Spark在腾讯雅虎优酷成功应用的深度解析

- 未分类 - 4,233 次阅读

park作为Apache顶级的开源项目,在迭代计算,交互式查询计算以及批量流计算方面都有相关的子项目,如Shark、Spark Streaming、MLbase、GraphX、SparkR等。从13年起Spark开始举行了自已的Spark Summit会议。Amplab实验室单独成立了独立公司Databricks来支持Spark的研发。 为了…

spark_debug 0

Spark作业代码(源码)IDE远程调试

- 基础架构 - 4,264 次阅读

我们在编写Spark Application或者是阅读源码的时候,我们很想知道代码的运行情况,比如参数设置的是否正确等等。用Logging方式来调试是一个可以选择的方式,但是,logging方式调试代码有很多的局限和不便。今天我就来介绍如何通过IDE来远程调试Spark的Application或者是Spark的源…

u=4003614593,1969300835&fm=15&gp=0 0

Spark SQL深度理解篇:模块实现、代码结构及执行流程总览

- 基础架构 - 4,534 次阅读

在2014年7月1日的Spark Summit上,Databricks宣布终止对Shark的开发,将重点放到Spark SQL上。Spark SQL将涵盖Shark的所有特性,用户可以从Shark 0.9进行无缝的升级。日前张包峰的博客上分享了Spark SQL各个模块的实现情况、代码结构、执行流程以及对Spark SQL的理解。 以下为原…

u=1535546616,4148789559&fm=15&gp=0 0

Spark源码分析:多种部署方式之间的区别与联系

- 基础架构 - 4,703 次阅读

作者:过往记忆 从官方的文档我们可以知道,Spark的部署方式有很多种:local、Standalone、Mesos、YARN…..不同部署方式的后台处理进程是不一样的,但是如果我们从代码的角度来看,其实流程都差不多。 从代码中,我们可以得知其实Spark的部署方式其实比官方文档中介绍的还要多,…

20140613204502171 0

Spark技术内幕:Worker源码与架构解析

- 基础架构 - 5,380 次阅读

作者:anzhsoft 首先通过一张Spark的架构图来了解Worker在Spark中的作用和地位: Worker所起的作用有以下几个: 1. 接受Master的指令,启动或者杀掉Executor 2. 接受Master的指令,启动或者杀掉Driver 3. 报告Executor/Driver的状态到Master 4. 心跳到Master…