文章 | 数盟 | Page 283
QQ截图20150720211801_副本 0

Spark与Flink:对比与分析

- 文章 - 阅 3,390

Spark是一种快速、通用的计算集群系统,Spark提出的最主要抽象概念是弹性分布式数据集(RDD),它是一个元素集合,划分到集群的各个节点上,可以被并行操作。用户也可以让Spark保留一个RDD在内存中,使其能在并行操作中被有效的重复使用。Flink是可扩展的批处理和流式数据处理的数…

QQ截图20150719160902 0

Apache Spark 1.4.1 发布,开源集群计算系统

- 基础架构 - 阅 2,650

Apache Spark 1.4.1 发布,此版本是个维护版本,包括一些稳定性修复(DataFrame API, Spark Streaming, PySpark, Spark SQL 和 MLlib),基于 Spark 1.4 分支。强烈建议所有用户升级到最新版本,此版本贡献开发者有 85 人。 Spark 1.4.1 现已提供在下载页面。 更新内容 …

QQ截图20150719153031 0

Twitter核心数据类库团队的Hadoop优化经验

- 文章 - 阅 2,343

出处:foreach_break的博客 一、来源 Streaming Hadoop Performance Optimization at Scale, Lessons Learned at Twitter (Data platform @Twitter) 二、观后感 2.1 概要 此稿介绍了Twitter的核心数据类库团队,在使用Hadoop处理离线任务时,使用的性能分析方法,及由此…

t01cbbd7ae2c54cab40 0

记一次苦逼的SQL查询优化

- 文章 - 阅 2,324

出处:云在青天水在哪的博客 最近在维护公司项目时,需要加载某页面,总共加载也就4000多条数据,竟然需要35秒钟,要是数据增长到40000条,我估计好几分钟都搞不定。卧槽,要我是用户的话估计受不了,趁闲着没事,就想把它优化一下,走你。   先把查询贴上: …

QQ截图20150716203628 0

MapReduce、Spark、Phoenix、Disco、Mars浅析及性能测试

- 文章 - 阅 2,210

作者:周明耀 出处:csdn 当使用Hadoop技术架构集群,集群内新增删除节点,或某个节点机器内硬盘存储达到饱和值时,都会造成集群内数据分布不均匀等问题。本文介绍HDFS内部的数据平衡方式,通过实验案例向读者解释内部数据平衡的解决办法。 当使用 Hadoop 技术架构集群,集群内…

QQ截图20150715213932_副本 0

欺诈预测机器学习模型设计:准确率和召回率的故事

- 文章 - 阅 3,060

出处:csdn Airbnb网站基于允许任何人将闲置的房屋进行长期或短期出租构建商业模式,来自房客或房东的欺诈风险是必须解决的问题。Airbnb信任和安全小组通过构建机器学习模型进行欺诈预测,本文介绍了其设计思想。假想模型是预测某些虚拟人物是否为“反面人物”,基本步骤:构建…

QQ截图20150715211049 0

一篇文章搞懂 Hive 数据存储的各种模式

- 文章 - 阅 2,763

出处:51cto Hive的数据分为表数据和元数据,表数据是Hive中表格(table)具有的数据;而元数据是用来存储表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。下面分别来介绍。 一、Hive的数据存储 在让你真正明白什么是hive 博文中我们提到H…

t0116726aa0ddccf580 0

Flask 框架作者希望看到的 Python

- 文章 - 阅 2,650

出处:伯乐在线 本文作者 Armin Ronacher 是知名 Python 框架 Flask 的开发者。文章写于 2014 年 8 月。 我不是Python 3的粉,也不喜欢这门语言的发展方向,这都不是什么秘密了。这也导致了最近几个月,铺天盖地邮件询问我,我到底想要Python怎样。所以我觉得我应该公开分享一…