五月 | 2015 | 数盟 | Page 2
t014f555106e0c26158 0

如何将 MapReduce 转化为 Spark

- 文章 - 3,218 次阅读

作者:周明耀  出处:developerWorks 中国 MapReduce VS Spark 目前的大数据处理可以分为以下三个类型: 复杂的批量数据处理(batch data processing),通常的时间跨度在数十分钟到数小时之间; 基于历史数据的交互式查询(interactive query),通常的时间跨度在数…

t017cc8110dc8090f37 0

如何成为Python高手

- 文章 - 1,603 次阅读

出处:外刊IT评论 这篇文章主要是对我收集的一些文章的摘要。因为已经有很多比我有才华的人写出了大量关于如何成为优秀Python程序员的好文章。 我的总结主要集中在四个基本题目上:函数式编程,性能,测试,编码规范。如果一个程序员能将这四个方面的内容知识都吸收消化,…

QQ截图20150529155021 0

如何在十天内掌握线性代数?

- 未分类 - 1,960 次阅读

  出处:译言网 最近,我的朋友斯考特·杨(Scott Young)成就了一个惊人的壮举:他在一年之内,完成了传说中的MIT计算机科学课程表的全部33门课,从线性代数到计算理论。最重要的是,他是自学的,观看在线教程讲座,并用实际的考试作自我评估。(到斯考特的FAQ页面…

t0197f261328b35d23a 0

深入解析和反思携程宕机事件

- 未分类 - 1,940 次阅读

  作者 智锦   出处:infoq 携程网宕机事件还在持续,截止28号晚上8点,携程首页还是指向一个静态页面,所有动态网页都访问不了。关于事故根源,网上众说纷纭。作为互联网运维老兵,尝试分析原因,谈谈我的看法。 宕机原因分析 网上有各种说法,有说是数据库数据和备份…

QQ截图20150528195938 0

“互联网女皇”Mary Meeker 2015互联网趋势报告【中文版】

- 未分类 - 7,140 次阅读

pdf完整版下载链接:http://pan.baidu.com/s/1pJsoGLt 每年此时,凯鹏华盈(KPCB)合伙人、享有“互联网女皇”美誉的玛丽·米克尔(Mary Meeker)都会公布一份互联网趋势报告,这份报告中包含了她对互联网发展趋势的完整剖析,覆盖从移动设备使用到互联网使用等…

美团 0

美团推荐算法实践:机器学习重排序模型成亮点

- 数据分析,行业应用 - 5,600 次阅读

摘要:本文介绍了美团网推荐系统的构建和优化过程中的一些做法,包括数据层、触发层、融合过滤层和排序层五个层次,采用了HBase、Hive、storm、Spark和机器学习等技术。两个优化亮点是将候选集进行融合与引入重排序模型。 编者按:在用户意图明确时,我们通常用搜索引擎来解…

t01d12e9bdb7e391c38_副本 0

音乐重度患者探寻网易云音乐的歌单推荐算法

- 文章 - 2,799 次阅读

  作者:邰原朗    知乎原帖》》这里 这就是amazon发明的“喜欢这个商品的人,也喜欢某某”算法。 其核心是数学中的“多维空间中两个向量夹角的余弦公式”,当初我的确是被这算法惊艳到了。 “商品推荐”系统的算法( Collaborative filtering )分两大类, 第一类,以人…

t019be6a398286ab6c5_副本 1

分享大波免费数据集资源

- 资源 - 3,119 次阅读

出处:炼数成金 众多金融,经济和社会数据集,125年公共健康数据可供下载,各种语料资源,还可以找到更多的数据集在哈佛大学数据科学网站。他们的LinkedIn的数据集也非常有意思。 KDNuggets也是一个很好的资源,部分网站需自备梯子。 http://usgovxml.com http://aws.…