数盟 | Page 385
d31b0ef41bd5ad6e858a2de383cb39dbb6fd3c43 0

十分钟理解矩阵!

- 2,839 次阅读 - 文章

作者:孟岩 前不久chensh出于不可告人的目的,要充当老师,教别人线性代数。于是我被揪住就线性代数中一些务虚性的问题与他讨论了几次。很明显,chensh觉得,要让自己在讲线性代数的时候不被那位强势的学生认为是神经病,还是比较难的事情。 可怜的chensh,谁让你趟这个地…

6941baebgw1er48xhuq2hj20h2082gmi 0

怎样利用Spark Streaming和Hadoop实现近实时的会话连接

- 2,204 次阅读 - 文章

这个 Spark Streaming 样例是怎样将近实时会话带到到Hadoop中的一个很好的例子。 Spark Streaming 是Apache Spark 中最有趣的组件之一。利用Spark Streaming,你可以通过使用与处理批量加载数据相同的API来创建数据管道,并通过数据管道处理流式数据。此外,Spark Steaming的“…

1-140224200J5207 1

数据分析师面试的77个常见问题,你准备好了吗?

- 7,579 次阅读 - 数据分析

随着我国经济决策逐渐由拍脑袋的“经验决策”转向“数据决策”,项目数据分析成为战略决策、经营决策、投资决策必备的科学方法论。数据分析岗位已经成为企业重要的岗位,数据分析师也越来越多的受到重视。数据分析师面试时面试官喜欢问那些问题,我们可以从国外的数据科学家面试问题…

t01c70575fe3b39e827 0

中国首家大数据交易所宣布成立

- 2,032 次阅读 - 未分类

4月14日,全国首个大数据交易所——贵阳大数据交易所正式挂牌运营并完成首批大数据交易。贵阳大数据交易所面向全国提供数据交易服务,旨在促进数据流通,规范数据交易行为,维护数据交易市场秩序,保护数据交易各方合法权益,向社会提供完善的数据交易、结算、交付、安全保障、数据…

t01b21d1cfd3db57f7a 0

干货!大数据量下,58同城mysql实践

- 8,059 次阅读 - 基础架构

零、分享提纲 1)基本概念 2)常见问题及解决思路 3)拆库实战 4)拆库后业务实战 5)总结   一、基本概念 大数据量下,搞mysql,以下概念需要先达成一致 1)单库,不多说了,就是一个库 2)分片(sharding),水平拆分,用于解决扩展性问…

t019e8fa63ef8611cca_副本 0

Kaggle 机器学习竞赛冠军及优胜者的源代码汇总

- 15,701 次阅读 - 文章

Kaggle比赛源代码和讨论的收集整理。 Algorithmic Trading Challenge40 Solution whitepaper41. Solution thread30. Allstate Purchase Prediction Challenge7 Rank 2 solution code33 by Alessandro Mariani. Rank 10 solution code6 by B1aine. Rank 36 solu…

t01df4db73fca2eb6fc_副本 0

为什么算法这么难?又我们该如何轻松的学习算法?

- 8,248 次阅读 - 文章

作者:刘未鹏 广大码农同学们大多都有个共识,认为算法是个硬骨头,很难啃,悲剧的是啃完了还未必有用——除了面试的时候。实际工程中一般都是用现成的模块,一般只需了解算法的目的和时空复杂度即可。 不过话说回来,面试的时候面算法,包括面项目中几乎不大可能用到的算法…

figure2-3 1

颠覆大数据分析之Spark弹性数据集

- 3,036 次阅读 - 基础架构

译者:黄经业 Spark中迭代式机器学习算法的数据流可以通过图2.3来进行理解。将它和图2.1中Hadoop MR的迭代式机器学习的数据流比较一下。你会发现在Hadoop MR 中每次迭代都会涉及HDFS的读写,而在Spark中则要简单得多。它仅需从HDFS到Spark中的分布式共享对象空间的一次读入——…