文章 | 数盟 | Page 364
QQ截图20150401182923 0

IT男也是艺术家:城市数据之美

- 可视化 - 阅 2,800

自诩为"map geek"(地图极客)的Eric Fischer用城市数据制作的地图,摄人心魄、广受好评。 什么是大数据?一般人眼中,那是难以管理的无关联数字,是海量信息。艺术家兼软件开发者Eric Fischer却将大数据转化为地图和空间图像的有趣方式,不仅帮助我们了解城市居民的行为,…

29_2_副本 0

Spark生态点燃近实时大数据之火

- 基础架构 - 阅 2,406

在用户体验达不到所宣传效果之后,IT领域中必然会随之出现“新的热门事件”。目前的新热门事件涉及大数据[注]和对海量分布式数据的快速精准分析。 在目前的大数据领域中,Hadoop被作为存储和分配海量数据的软件,而MapReduce则被作为处理这些海量数据的引擎。两者整合在一起可以批…

t01c6488328c3155779 0

我的碎碎念:Docker入门指南

- 文章 - 阅 2,388

之前曾经翻译过很多Docker入门介绍的文章,之所以再翻译这篇,是因为Anders的角度很独特,思路也很调理。你也可以看下作者的演讲稿 《Docker, DevOps的未来》 。本文介绍了Docker的一些基本概念、诱人的特性、Docker的工作原理、日常管理基本操作,以及一些Docker的问题的解决方…

t017596eb78a53eac5a 0

教你挖掘出啤酒和尿布关系的大法——关联算法

- 文章 - 阅 2,696

所谓关联,反映的是一个事件和其他事件之间依赖或关联的知识。当我们查找英文文献的时候,可以发现有两个英文词都能形容关联的含义。第一个是相关性relevance,第二个是关联性association,两者都可以用来描述事件之间的关联程度。其中前者主要用在互联网的内容和文档上,比如搜…

204737q31fk3qou73m4nqo_副本 0

零基础学习hadoop到上手工作线路指导(编程篇)

- 基础架构 - 阅 7,946

作者:nettman 问题导读: 1.hadoop编程需要哪些基础? 2.hadoop编程需要注意哪些问题? 3.如何创建mapreduce程序及其包含几部分? 4.如何远程连接eclipse,可能会遇到什么问题? 5.如何编译hadoop源码? 阅读此篇文章,需要些基础下面两篇文章 零基础学习hadoop…

timthumb 0

用Apache Kafka构建流数据平台的一些建议

- 文章 - 阅 3,831

作者 谢丽 在《流数据平台构建实战指南》第一部分中,Confluent联合创始人Jay Kreps介绍了如何构建一个公司范围的实时流数据中心。本文是根据第二部分整理而成(第一部分)。在这一部分中,Jay给出了一些构建数据流平台的具体建议。 限制集群数量 Kafka集群数量越少,系统架…

t01d2d0591034ec18f2 0

豆瓣 PARACEL:让分布式机器学习变得简单

- 人工智能 - 阅 2,685

在豆瓣,我们常通过机器学习的方式从各种数据中训练出模型,利用这些模型帮助我们理解用户并为大家挖掘出有价值的内容:豆瓣FM的个性化歌曲推荐、书影音的喜欢也喜欢、首页的豆瓣猜等等。 早期的时候,单机训练的程序基本就能满足需求。一方面数据量不大,另一方面有的模型算…

1289543127773_副本 0

分类决策树算法——C4.5详解

- 文章 - 阅 10,029

作者:Yanjun C4.5是机器学习算法中的另一个分类决策树算法,它是基于ID3算法进行改进后的一种重要算法,相比于ID3算法,改进有如下几个要点: 用信息增益率来选择属性。ID3选择属性用的是子树的信息增益,这里可以用很多方法来定义信息,ID3使用的是熵(entropy, 熵是一…