文章 | 数盟社区 | Page 271
t0196e1c428a2e932a3_副本 0

使用Apache Hadoop、Impala和MySQL进行数据分析

- 数据分析,基础架构 - 阅 2,573

作者 孙镜涛 Apache Hadoop是目前被大家广泛使用的数据分析平台,它可靠、高效、可伸缩。Percona公司的Alexander Rubin 最近发表了一篇博客文章介绍了他是如何将一个表从MySQL导出到Hadoop然后将数据加载到Cloudera Impala并在这上面运行报告的。 在Alexander Rubin的这个…

20141222134630106_副本 0

Spark 1.2 发布,开源集群计算系统,新特性概述如下

- 基础架构 - 阅 2,331

作者:陈超 Spark 1.2 发布,此版本包括 172 位贡献者和超过 1000 个 commits。 此版本包括 Spark 核心操作和性能改进; 添加新的网络传输子系统,进行了较大的改进; Spark SQL 引入了一个外部数据源的支持,支持 Hive13; 动态分区; fixed-precision decima…

image 0

北京地铁一日客流数据可视化

- 未分类,可视化 - 阅 3,449

@王静远BUAA #BIGSCity# #乘客去哪儿# 今天的“大数据时代的城市空间发展研讨会”上给大家展示了 "One Day in Beijing Metro"的视频。视频的在线链接在|北京地铁一日客流数据可视化 One Day in Beijing Metro ,BIGSCity上的网页在http://t.cn/R7NPcH8 ,欢迎观赏,欢迎转载,欢迎…

t013aec7b965885e254_副本 0

Apache Sqoop:云端大数据分析的关键一环

- 基础架构 - 阅 2,076

  Hadoop正成为企业用于大数据分析的最热门选择,但想将你的数据移植过去并不容易。Apache Sqoop正在加紧帮助客户将重要数据从数据库移到Hadoop。 正当大数据变得越来越重要,而越来越多应用都在云上部署时,云管理员也面临了不断增长的将数据从源系统转移到分析系统——其中…

t01a05c982673cf06f8 0

12款免费与开源的NoSQL数据库介绍

- 基础架构 - 阅 1,779

作者:张龙 Naresh Kumar是位软件工程师与热情的博主,对于编程与新事物拥有极大的兴趣,非常乐于与其他开发者和程序员分享技术上的研究成果。近日,Naresh撰文谈到了12款知名的免费、开源NoSQL数据库,并对这些数据库的特点进行了分析。 现在,NoSQL数据库变得越来越流行…

t01aa61c750412bdc26 0

网易大数据平台的Spark技术实践

- 基础架构 - 阅 3,323

作者 王健宗 网易的实时计算需求 对于大多数的大数据而言,实时性是其所应具备的重要属性,信息的到达和获取应满足实时性的要求,而信息的价值需在其到达那刻展现才能利益最大化,例如电商网站,网站推荐系统期望能实时根据顾客的点击行为分析其购买意愿,做到精准营销。 实…

t0132c47f370ab8e384_副本 0

机器学习经典算法详解及Python实现–K近邻(KNN)算法

- 人工智能 - 阅 8,543

作者:suipingsp (一)KNN依然是一种监督学习算法 KNN(K Nearest Neighbors,K近邻 )算法是机器学习所有算法中理论最简单,最好理解的。KNN是一种基于实例的学习,通过计算新数据与训练数据特征值之间的距离,然后选取K(K>=1)个距离最近的邻居进行分类判断(投票法)或…

t014ee5a9c75322edba 0

基于机器学习方法的POI品类推荐算法

- 数据分析,人工智能 - 阅 1,990

作者:wangbogong 前言 在美团商家数据中心(MDC),有超过100w的已校准审核的POI数据(我们一般将商家标示为POI,POI基础信息包括:门店名称、品类、电话、地址、坐标等)。如何使用这些已校准的POI数据,挖掘出有价值的信息,本文进行了一些尝试:利用机器学习方法,自动标注…