文章 | 数盟 | Page 350
figure2-3 1

颠覆大数据分析之Spark弹性数据集

- 基础架构 - 阅 3,177

译者:黄经业 Spark中迭代式机器学习算法的数据流可以通过图2.3来进行理解。将它和图2.1中Hadoop MR的迭代式机器学习的数据流比较一下。你会发现在Hadoop MR 中每次迭代都会涉及HDFS的读写,而在Spark中则要简单得多。它仅需从HDFS到Spark中的分布式共享对象空间的一次读入——…

EuclideanDistance 0

不到100行代码实现一个简单的推荐系统

- 文章 - 阅 7,559

作者:Kai Zhou’s Blog 似乎咱的产品七,八年前就想做个推荐系统的,就是类似根据用户的喜好,自动的找到用户喜欢的电影或者节目,给用户做推荐。可是这么多年过去了,不知道是领导忘记了还是怎么了,连个影子还没见到。 而市场上各种产品的都有了推荐系统了。比如…

6941baebjw1er4a2cvyc5j20s00evmz2 0

机器学习算法原理:人工神经元和单层神经网络

- 人工智能 - 阅 5,675

本文将简单介绍机器学习的历史和基本概念。我们会看看第一个用算法描述的神经网络和适用于自适应线性神经元的梯度下降算法,这些知识不仅介绍了机器学习原理,还是后续文章中现代多层神经网络的基础。 如果你想看一下代码运行的实际效果,可到https://github.com/rasbt/pattern_…

t01d2bcf47ffa0af5f8 0

开发高性能的MongoDB应用:浅谈MongoDB性能优化

- 基础架构 - 阅 2,936

作者:吴纹羽 性能与用户量 “如何能让软件拥有更高的性能?”,我想这是一个大部分开发者都思考过的问题。性能往往决定了一个软件的质量,如果你开发的是一个互联网产品,那么你的产品性能将更加受到考验,因为你面对的是广大的互联网用户,他们可不是那么有耐心的。严重点说,…

QQ截图20150415204442_副本 0

大数据分析工具面临的四大最常见的难题

- 数据分析 - 阅 2,625

无论从实际数据量方面来看,还是从业务重要性方面来看,大数据都很大。尽管大数据如此重要,还是只有38%的企业准备好处理不断涌入的大数据。 原因何在?如今的数据具有多种多样的形式,而且来自许多不同的数据源。更为重要的是,除非有需要的那些人易于获得大数据,除非能迅速…

t015d45bfdcb5cec7d7 0

订单贡献率10%,京东个性化推荐系统持续优化的奥秘

- 文章 - 阅 3,754

作者:周建丁 在信息过剩的互联网时代,个性化推荐技术对于互联网公司运营的重要性自不待言。本文要谈的是京东商城最新的推荐系统。京东已经在新版首页上线了“今日推荐”和“猜你喜欢”两项功能,基于大数据和个性化推荐算法,实现了向不同用户展示不同的内容的效果(俗称“千人千…

QQ截图20150415181914 0

Spark 2.0:将支持在手机设备上运行Spark

- 基础架构 - 阅 3,087

据估计,到2017年底,90%的CPU cycles 将会致力于移动硬件,移动计算正在迅速上升到主导地位。Spark为此重新设计了Spark体系结构,允许Spark在移动设备上运行Spark。 Spark为现代化数据中心和大数据应用进行设计和优化,但是它目前不适合移动计算。在过去的几个月中,Spark社…

QQ截图20150415160247 0

分布式数据库 RethinkDB 2.0 发布,拥有3000+commits

- 基础架构 - 阅 2,597

RethinkDB在官网宣布,经过五年的发展,RethinkDB 2.0 正式发布,用于实践!RethinkDB团队表示,该项目有着2000多个改进、16个重要版本迭代而成,以及在GitHub资源库有着3000+的commits…… RethinkDB 2.0致力于简化创建过程,用户可以操作RethinkDB 来持续更新应用程序汇中的…