文章 | 数盟社区 | Page 234
QQ截图20150412200558 0

用户行为数据可视化:行为序列图

- 可视化 - 阅 5,097

一.引子: 作为一名网站的用户研究工作人员,我曾经碰到过以下问题: • 深知服务器日志是一座金矿,但不知道该从哪里开始分析? • 辛辛苦苦盯着电脑一天,看了1000+条日志,越看越晕,看不出规律,找不到方向… • 在众多日志中,发现了一个异常动作,可是,这只是一个用…

QQ截图20150412200335 0

译文:Spark编程指南(Python版)

- 基础架构 - 阅 29,658

Spark编程指南 译者说在前面:最近在学习Spark相关的知识,在网上没有找到比较详细的中文教程,只找到了官网的教程。出于自己学习同时也造福其他初学者的目的,把这篇指南翻译成了中文,笔者水平有限,文章中难免有许多谬误,请高手不吝赐教。 本文翻译自Spark Programming Gui…

t01a68bc44f7f7a2290 0

首席工程师揭秘:LinkedIn大数据后台是如何运作的

- 文章 - 阅 3,000

英文原文: The Log: What every software engineer should know about real-time data's unifying abstraction 我在六年前的一个令人兴奋的时刻加入到LinkedIn公司。从那个时候开始我们就破解单一的、集中式数据库的限制,并且启动到特殊的分布式系统套件的转换。这是一件令…

6941baebgw1eqtpnrsfwnj21kw0zgn9e 0

关于Andrew Ng『应用机器学习的建议』的学习笔记

- 文章 - 阅 5,406

这篇文章是以Bremen大学机器学习课程的教程为基础的。本文总结了使用机器学习解决新问题的一些建议。包括: 可视化数据的方法 选择一个适合当前问题的机器学习方法 鉴别和解决过拟合和欠拟合问题  处理大数据库问题(注意:不是非常小的)  不同损失函数的利弊 本…

t0129e4d448db32281d 0

Elasticsearch、MongoDB和Hadoop比较

- 文章 - 阅 7,195

作者:随意而生 IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性,避免落大部队太远,我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎,它们存储着JSON文…

t0127b19c8deacd39e5 0

减少部署痛苦:七种基于云计算的机器学习服务

- 文章 - 阅 3,050

作者Gridlex 这里有七种机器学习云服务,它们可以帮助你减少部署机器学习解决方案的痛苦,包括:微软Azure机器学习、Google Prediction API、Algorithms.io、BigML、Ersatz Labs、Nutonian Eureqa和Amazon Machine Learning。 开发机器学习解决方案提升现有的预测算法并…

t011a823096b5f72c5d 0

Spark Streaming 1.3对Kafka整合的提升详解

- 文章,基础架构 - 阅 9,482

Apache Kafka近年来迅速地成为开源社区流行的流输入平台。同时我们也看到了Spark Streaming的使用趋势和它类似。因此,在Spark 1.3中,社区对Kafka和Spark Streaming的整合做了很多重要的提升。主要修改如下: 1、为Kafka新增了新的Direct API。这个API可以使得每个Kafka记录…

t018366f4fc614763ca 0

MongoDB 3.0.2 发布,Mahout 0.10.0 发布

- 基础架构 - 阅 3,072

MongoDB 3.0.2 发布 MongoDB 3.0.2 发布,此版本更新内容如下: Fix inefficient query plans for 2d $nearSphere:SERVER-17469 Fix problem starting mongod during repair operations with WiredTiger:SERVER-17652 and SERVER-17729 Resolved invalid compression …