数盟 | Page 3
0

资源 | 机器学习高质量数据集大合辑

- 263 次阅读 - 未分类

在机器学习中,寻找数据集也是非常重要的一步。质量高或者相关性高的数据集对模型的训练是非常有帮助的。 那么用于机器学习的开放数据集有哪些呢?给大家推荐一份高质量的数据集,这些数据集或者涵盖范围广泛(比如 Kaggle),或者非常细化(比如自动驾驶汽车的数据)。 首先,…

0

Spark灰度发布在十万级节点上的实践

- 125 次阅读 - 文章,基础架构,编程语言

本文介绍了顶级互联网公司数万节点下 Spark 的 CI 与 CD & CD 灰度发布实践。包含如何维护源代码,如何维护 Release 多版本,开发版与正式版,以及如何实现灰度发布,如何进行 hotfix 等。为了提高本文内容的可借鉴性,隐去了公司特有内容,只保留通用部分。 CI 介绍 持续…

123542 0

为何我国大数据市场规模不敌小龙虾?

- 188 次阅读 - 文章,数据分析,数据挖掘

今年以来,根据中国信息通信研究院《中国大数据发展调查报告2018》数据显示,2017年我国大数据市场规模为236亿元(该统计口径是大数据核心产业,包括大数据软件、硬件和服务的直接产值,不包括附加值)。而同年,我国小龙虾产业连年快速增长,市场规模超千亿元。为何,作为信息时代…

微信推文封面 0

2018数据与媒介发展论坛 报名开启!(内有详细议程)

- 171 次阅读 - 文章,数据分析,数据挖掘

数据理念和数据技术的发展,为媒体带来前所未有的机遇和挑战。技术推动媒体转型的同时,亦愈加裹挟着媒体的生存空间。算法成为假新闻的助推者还是会成为新闻核查的利器?数据新闻能否为新闻业带来一线生机?这些都已成为亟待探讨的话题。 本届论坛将是对数据与媒介两者关系…

af75497768654fdfabeec1b3b5a08ca7 0

Uber开源Marmaray:基于Hadoop的通用数据摄取和分散框架

- 209 次阅读 - 文章,数据分析,基础架构,数据挖掘

三年前,Uber采用Apache Hadoop作为数据平台,从而可以跨计算机集群管理数PB的数据。但是,因为我们有很多团队、工具和数据源,所以需要一种可靠的方式来摄取和分散数据。Marmaray是Uber开源的Apache Hadoop数据提取和分散框架。Marmaray由我们的Hadoop平台团队设计和开发,是一…

wKioL1muRTCzKLW1AAB7VVHVCyE315.jpg-wh_651x-s_4174251280 0

开放政府数据价值:内涵、评价与实践

- 177 次阅读 - 文章,数据分析,数据挖掘

分析开放政府数据的价值与评价,有助于政府数据开放更高效地开展。文章在界定开放政府数据价值内涵与层次划分的基础上,介绍国外开放政府数据价值评价进展,论述开放政府数据价值评价的意义,分析成本/效益理论、利益相关者理论、新公共服务理论作为开放政府数据价值评价支撑理论…

0

基于TensorFlow Serving的深度学习在线预估

- 227 次阅读 - 未分类

一、前言 随着深度学习在图像、语言、广告点击率预估等各个领域不断发展,很多团队开始探索深度学习技术在业务层面的实践与应用。而在广告CTR预估方面,新模型也是层出不穷: Wide and Deep[1]、DeepCross Network[2]、DeepFM[3]、xDeepFM[4],美团很多篇深度学习博客也做了详…

af75497768654fdfabeec1b3b5a08ca7 0

米少熬好粥—数据有限时怎样调优深度学习模型

- 216 次阅读 - 文章,深度学习

迁移学习 所谓迁移学习,就是将一个问题上训练好的模型通过简单的调整,使其适用一个新的问题,可以认为是一种模型调优的“取巧”方法。可以类比人的举一反三能力。 迁移学习的特点 1、需求数据量少 假设有两个领域,一个领域已经有很多的数据,能成功地建一个模型…