数据挖掘 | 数盟 | Page 3
5916a6800c7e4 0

让你上瘾的网易云音乐推荐算法,用Word2vec就可以实现

- 文章,数据分析,数据挖掘 - 阅 559

中东和北非地区较大的音乐流媒体平台Anghami每个月产生7亿多条歌曲数据流。这也意味着所有这些流媒体产生的大量数据对我们来讲是一个宝贵的训练集,我们可以用这个训练集来训练机器学习模型使其更好地理解用户品味,并优化我们的音乐推荐结果。 在本文中,我们将介绍一个从大量…

1-10 0

受众画像数据只是看看?——基于朴素贝叶斯的用户数据挖掘

- 文章,数据挖掘 - 阅 510

作者:齐云涧 做广告优化这么久了,也看过不少广告后台的受众画像,总体来说,对广告数据分析和效果优化的参考价值有限,不过聊胜于无。 究其原因,在于很多广告后台的受众画像数据,只告诉了我们看了广告的这部分人群是什么样的,而缺失了发生转化的这部分用户的画像数据。原…

数据科学家 0

干货 | 分布式架构系统生成全局唯一序列号的一个思路

- 文章,数据分析,编程语言,数据挖掘 - 阅 473

作者:丁宜人 一、相关背景 分布式架构下,唯一序列号生成是我们在设计一个系统,尤其是数据库使用分库分表的时候常常会遇见的问题。当分成若干个sharding表后,如何能够快速拿到一个唯一序列号,是经常遇到的问题。 在携程账号数据库迁移MySql过程中,我们对用户…

a3332693-1776-4972-b3ca-082f897d0040 0

分布式存储系统可靠性如何估算?

- 文章,编程语言,数据挖掘 - 阅 414

常规情况下,我们一般使用多副本技术来提高存储系统的可靠性,无论是结构化数据库存储 (如典型的 mysql)、文档型 Nosql 数据库存储 (mongodb ) 或者是常规的 blob 存储系统 (GFS、Hadoop) 等,无不如此。 因为数据几乎可以称得上是企业生命力的核心,保障数据存储系统的可靠性对…

dbdf99889c930eff12b785f5ed379d56 0

大数据还是“大忽悠”? 解决问题、贴近业务才能“接地气”

- 文章,数据挖掘 - 阅 457

今年1月,工业和信息化部印发了《大数据产业发展规划(2016-2020 年)》,提出全面部署“十三五”时期大数据产业发展工作,加快建设数据强国,为实现制造强国和网络强国提供强大的产业支撑。预计,中国大数据产业市场在未来五年将保持高速增长,到2020 年中国大数据产业规模将接近5万…

4870fa8b3af751e290c2cbc499f08038.jpg-wh_651x-s_4172528345 0

年度回顾:2017年值得关注的10起数据泄露事件

- 文章,数据挖掘 - 阅 390

数据泄露已成为全球最普遍存在的网络安全事件之一,而且似乎这个趋势还将一直持续下去。事实上,仅在2017年上半年就有更多数据的因有意或者无意的原因遭到泄露(19亿条),甚至超过了2016年全年泄露的数据总和(13.7亿)。 趋势科技分析,发生在2017年的许多数据泄露事件…

1503641729752934 0

谷歌用ML模型替代数据库组件,或彻底改变数据系统开发

- 文章,数据分析,数据挖掘 - 阅 543

“如果这项研究取得更多的成果,将来有一天我们很可能回过头看然后说,索引是最先倒下的,接着是其他的数据库组件(排序算法、查询优化、连接),它们都逐渐被神经网络取代。”纽约州立大学布法罗分校的计算机科学和工程教授Murat Demirbas这样说。 文章描述了一个非常有前景且十…

318761-1F61Q2193231-1 0

哔哩哔哩大数据采集服务—Lancer系统设计与实践

- 文章,数据分析,人工智能,数据挖掘 - 阅 858

哔哩哔哩(以下简称B站)的日志采集肩负了B站的所有业务的日志收集并传输,提供离线数据和实时数据以满足离线或实时计算以及业务方订阅的需求。B站日志收集系统是基于Flume设计和搭建而成的。 数据采集是大数据的基石,近几年随着业务的高速增长,产生的数据量越来越大,并…