文章 | 数盟
af75497768654fdfabeec1b3b5a08ca7 0

Uber开源Marmaray:基于Hadoop的通用数据摄取和分散框架

- 文章,数据分析,基础架构,数据挖掘 - 阅 85

三年前,Uber采用Apache Hadoop作为数据平台,从而可以跨计算机集群管理数PB的数据。但是,因为我们有很多团队、工具和数据源,所以需要一种可靠的方式来摄取和分散数据。Marmaray是Uber开源的Apache Hadoop数据提取和分散框架。Marmaray由我们的Hadoop平台团队设计和开发,是一…

wKioL1muRTCzKLW1AAB7VVHVCyE315.jpg-wh_651x-s_4174251280 0

开放政府数据价值:内涵、评价与实践

- 文章,数据分析,数据挖掘 - 阅 86

分析开放政府数据的价值与评价,有助于政府数据开放更高效地开展。文章在界定开放政府数据价值内涵与层次划分的基础上,介绍国外开放政府数据价值评价进展,论述开放政府数据价值评价的意义,分析成本/效益理论、利益相关者理论、新公共服务理论作为开放政府数据价值评价支撑理论…

af75497768654fdfabeec1b3b5a08ca7 0

米少熬好粥—数据有限时怎样调优深度学习模型

- 文章,深度学习 - 阅 115

迁移学习 所谓迁移学习,就是将一个问题上训练好的模型通过简单的调整,使其适用一个新的问题,可以认为是一种模型调优的“取巧”方法。可以类比人的举一反三能力。 迁移学习的特点 1、需求数据量少 假设有两个领域,一个领域已经有很多的数据,能成功地建一个模型…

0537aea4c28648b47529584ffc28e104 0

如何优雅地从四个方面加深对深度学习的理解

- 文章,深度学习 - 阅 113

在今年的 ICML 上,深度学习理论成为最大的主题之一。会议第一天,Sanjeev Arora 就展开了关于深度学习理论理解的教程,并从四个方面分析了关于该领域的研究:非凸优化、超参数和泛化、深度的意义以及生成模型。 2017 年 12 月 NIPS 的 Test-of-Time Award 颁奖…

数据科学家 0

数据挖掘领域十大经典算法之—CART算法(附代码)

- 文章,数据分析,数据挖掘 - 阅 143

简介 CART与C4.5类似,是决策树算法的一种。此外,常见的决策树算法还有ID3,这三者的不同之处在于特征的划分: ID3:特征划分基于信息增益 C4.5:特征划分基于信息增益比 CART:特征划分基于基尼指数 基本思想 CART假设决策树是二叉树,内部结点特征的取值为“是…

20170724095946963 0

MapReuce中对大数据处理最合适的数据格式是什么?

- 文章,数据分析,数据挖掘 - 阅 112

在本章的第一章节介绍中,我们简单了解了Mapreduce数据序列化的概念,以及其对于XML和JSON格式并不友好。本节作为《Hadoop从入门到精通》大型专题的第三章第二节将教大家如何在Mapreduce中使用XML和JSON两大常见格式,并分析比较最适合Mapreduce大数据处理的数据格式。 3.2.…

0537aea4c28648b47529584ffc28e104 0

visdom的安装及在pytorch下损失函数的可视化应用

- 文章,编程语言,深度学习 - 阅 122

2018/9/18更新  感觉tensorboardX插件更好用,已转用https://github.com/lanpa/tensorboardX 更新:新版visdom0.1.7安装方式为:conda install -c srivasv visdom pytorch下可采用visidom作为可视化工具 1. 安装 pip install visdom conda install visdom 启动 …

cbe65b3adaef26b257e9ffbd1dde5477 0

YARN & Mesos,论集群资源管理所面临的挑战

- 文章,基础架构 - 阅 99

在国内,大部分的Spark用户都是由Hadoop过渡而来,因此YARN也成了大多Spark应用的底层资源调度保障。而随着Spark应用的逐渐加深,各种问题也随之暴露出来,比如资源调度的粒度问题。为此,7月2日晚,在CSDN Spark高端微信群中,一场基于YARN和Mesos的讨论被拉开,主要参与分享的…