文章 | 数盟 | Page 2
20181029040854597 0

Spark 踩坑记—Spark Streaming+Kafka

- 文章,基础架构,编程语言 - 阅 175

作者:肖力涛 前言 在 WeTest 舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了 spark streaming 从 kafka 中不断拉取数据进行词频统计。本文首先对 spark streaming 嵌入 …

20181029021552838 0

谷歌智慧城市之困:隐私问题成为跨不过去的坎

- 文章,数据分析,人工智能 - 阅 174

聚焦AI,读懂下一个大时代! 谷歌母公司Alphabet旗下创新城市部门Sidewalk Labs目前在信息隐私问题上陷入了困境。 他们失去了数据信托首席专家和顾问安·卡瓦吉安(Ann Cavoukian),该机构将批准和管理多伦多概念智能社区Quayside内部的信息收集。安大略省的前信息和隐私专员Cav…

t011d211b27f68666ba 0

NIPS 2018:作为多目标优化的多任务学习:寻找帕累托最优解

- 文章,人工智能,深度学习 - 阅 132

多任务学习本质上是一个多目标问题,因为不同任务之间可能产生冲突,需要对其进行取舍。本文明确将多任务学习视为多目标优化问题,以寻求帕累托最优解。而经过实验证明,本文提出的方法可以在现实假设下得到帕累托最优解。 统计学中最令人震惊的结论之一是 Stein 悖论。Stei…

0537aea4c28648b47529584ffc28e104 0

Nature论文解读:用于改善加权生物网络信噪比的网络增强方法

- 文章,人工智能,深度学习 - 阅 104

本期推荐的论文笔记来自 PaperWeekly 社区用户 @xuehansheng。本文是斯坦福大学 Bo Wang 的又一篇大作,即将发表于 Nature Communications。 本文提出一种网络增强(Network Enhancement)方法,即一种用于改善无向加权网络的信噪比的方法。NE 使用双随机矩阵算子来诱导稀疏性…

0537aea4c28648b47529584ffc28e104 0

Diss所有深度生成模型,DeepMind说它们真的不知道到底不知道什么

- 文章,深度学习 - 阅 162

尽管识别检测等任务在实际中应用广泛,但判别模型真的搞不定未见过的数据。因此很多研究者认为生成模型对输入建立了完整的概率分布,说不定它就可以检测到不在分布内的「新奇」样本,例如在猫狗数据集上训练的生成模型能知道手写数字与训练集不太一样。但近日 DeepMind 发表论…

t011d211b27f68666ba 0

教你用几行Python和消费数据做客户细分

- 文章,数据分析,编程语言,数据挖掘 - 阅 170

编译:张秋玥、罗然、云舟 细分客户群是向客户提供个性化体验的关键。它可以提供关于客户行为、习惯与偏好的相关信息,帮助企业提供量身定制的营销活动从而改善客户体验。在业界人们往往把他吹嘘成提高收入的万能药,但实际上这个操作并不复杂,本文就将带你用简单的代码实现…

145202791495850396 0

维基百科中的数据科学:手把手教你用Python读懂全球最大百科全书

- 文章,数据分析,数据挖掘 - 阅 230

没人否认,维基百科是现代最令人惊叹的人类发明之一。 几年前谁能想到,匿名贡献者们的义务工作竟创造出前所未有的巨大在线知识库?维基百科不仅是你写大学论文时最好的信息渠道,也是一个极其丰富的数据源。 从自然语言处理到监督式机器学习,维基百科助力了无数的数据科学项目…

145202791495850396 0

大数据时代人工智能在计算机网络中的运用研究

- 文章,数据分析,人工智能,数据挖掘 - 阅 140

摘要:本文首先探究大数据和人工智能技术,进而提出在计算机网络中如何运用人工智能进行工作。 关键词:人工智能;计算机网络;大数据应用 在大数据时代下,人工智能作为国际上未来几年、几十年发展的重要方向,具有十分广阔的应用空间,适用于各行各业,并且当今生产和生活中也…