文章 | 数盟 | Page 345
QQ截图20150412200335 0

译文:Spark编程指南(Python版)

- 基础架构 - 阅 40,078

Spark编程指南 译者说在前面:最近在学习Spark相关的知识,在网上没有找到比较详细的中文教程,只找到了官网的教程。出于自己学习同时也造福其他初学者的目的,把这篇指南翻译成了中文,笔者水平有限,文章中难免有许多谬误,请高手不吝赐教。 本文翻译自Spark Programming Gui…

t01a68bc44f7f7a2290 0

首席工程师揭秘:LinkedIn大数据后台是如何运作的

- 文章 - 阅 3,446

英文原文: The Log: What every software engineer should know about real-time data's unifying abstraction 我在六年前的一个令人兴奋的时刻加入到LinkedIn公司。从那个时候开始我们就破解单一的、集中式数据库的限制,并且启动到特殊的分布式系统套件的转换。这是一件令…

6941baebgw1eqtpnrsfwnj21kw0zgn9e 0

关于Andrew Ng『应用机器学习的建议』的学习笔记

- 文章 - 阅 6,465

这篇文章是以Bremen大学机器学习课程的教程为基础的。本文总结了使用机器学习解决新问题的一些建议。包括: 可视化数据的方法 选择一个适合当前问题的机器学习方法 鉴别和解决过拟合和欠拟合问题  处理大数据库问题(注意:不是非常小的)  不同损失函数的利弊 本…

t0129e4d448db32281d 0

Elasticsearch、MongoDB和Hadoop比较

- 文章 - 阅 8,695

作者:随意而生 IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性,避免落大部队太远,我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎,它们存储着JSON文…

t0127b19c8deacd39e5 0

减少部署痛苦:七种基于云计算的机器学习服务

- 文章 - 阅 3,635

作者Gridlex 这里有七种机器学习云服务,它们可以帮助你减少部署机器学习解决方案的痛苦,包括:微软Azure机器学习、Google Prediction API、Algorithms.io、BigML、Ersatz Labs、Nutonian Eureqa和Amazon Machine Learning。 开发机器学习解决方案提升现有的预测算法并…

t011a823096b5f72c5d 0

Spark Streaming 1.3对Kafka整合的提升详解

- 文章,基础架构 - 阅 11,761

Apache Kafka近年来迅速地成为开源社区流行的流输入平台。同时我们也看到了Spark Streaming的使用趋势和它类似。因此,在Spark 1.3中,社区对Kafka和Spark Streaming的整合做了很多重要的提升。主要修改如下: 1、为Kafka新增了新的Direct API。这个API可以使得每个Kafka记录…

t018366f4fc614763ca 0

MongoDB 3.0.2 发布,Mahout 0.10.0 发布

- 基础架构 - 阅 3,479

MongoDB 3.0.2 发布 MongoDB 3.0.2 发布,此版本更新内容如下: Fix inefficient query plans for 2d $nearSphere:SERVER-17469 Fix problem starting mongod during repair operations with WiredTiger:SERVER-17652 and SERVER-17729 Resolved invalid compression …

t017ae21449831b1bfd 0

在Python中利用Pandas库处理大数据的简单介绍

- 文章 - 阅 7,941

在数据分析领域,最热门的莫过于Python和R语言,此前有一篇文章《别老扯什么Hadoop了,你的数据根本不够大》指出:只有在超过5TB数据量的规模下,Hadoop才是一个合理的技术选择。这次拿到近亿条日志数据,千万级数据已经是关系型数据库的查询分析瓶颈,之前使用过Hadoop对大量文…