数据挖掘 | 数盟 | Page 12
数据科学家 0

干货 | 分布式架构系统生成全局唯一序列号的一个思路

- 文章,数据分析,编程语言,数据挖掘 - 阅 602

作者:丁宜人 一、相关背景 分布式架构下,唯一序列号生成是我们在设计一个系统,尤其是数据库使用分库分表的时候常常会遇见的问题。当分成若干个sharding表后,如何能够快速拿到一个唯一序列号,是经常遇到的问题。 在携程账号数据库迁移MySql过程中,我们对用户…

a3332693-1776-4972-b3ca-082f897d0040 0

分布式存储系统可靠性如何估算?

- 文章,编程语言,数据挖掘 - 阅 684

常规情况下,我们一般使用多副本技术来提高存储系统的可靠性,无论是结构化数据库存储 (如典型的 mysql)、文档型 Nosql 数据库存储 (mongodb ) 或者是常规的 blob 存储系统 (GFS、Hadoop) 等,无不如此。 因为数据几乎可以称得上是企业生命力的核心,保障数据存储系统的可靠性对…

dbdf99889c930eff12b785f5ed379d56 0

大数据还是“大忽悠”? 解决问题、贴近业务才能“接地气”

- 文章,数据挖掘 - 阅 641

今年1月,工业和信息化部印发了《大数据产业发展规划(2016-2020 年)》,提出全面部署“十三五”时期大数据产业发展工作,加快建设数据强国,为实现制造强国和网络强国提供强大的产业支撑。预计,中国大数据产业市场在未来五年将保持高速增长,到2020 年中国大数据产业规模将接近5万…

4870fa8b3af751e290c2cbc499f08038.jpg-wh_651x-s_4172528345 0

年度回顾:2017年值得关注的10起数据泄露事件

- 文章,数据挖掘 - 阅 516

数据泄露已成为全球最普遍存在的网络安全事件之一,而且似乎这个趋势还将一直持续下去。事实上,仅在2017年上半年就有更多数据的因有意或者无意的原因遭到泄露(19亿条),甚至超过了2016年全年泄露的数据总和(13.7亿)。 趋势科技分析,发生在2017年的许多数据泄露事件…

1503641729752934 0

谷歌用ML模型替代数据库组件,或彻底改变数据系统开发

- 文章,数据分析,数据挖掘 - 阅 717

“如果这项研究取得更多的成果,将来有一天我们很可能回过头看然后说,索引是最先倒下的,接着是其他的数据库组件(排序算法、查询优化、连接),它们都逐渐被神经网络取代。”纽约州立大学布法罗分校的计算机科学和工程教授Murat Demirbas这样说。 文章描述了一个非常有前景且十…

318761-1F61Q2193231-1 0

哔哩哔哩大数据采集服务—Lancer系统设计与实践

- 文章,数据分析,人工智能,数据挖掘 - 阅 1,003

哔哩哔哩(以下简称B站)的日志采集肩负了B站的所有业务的日志收集并传输,提供离线数据和实时数据以满足离线或实时计算以及业务方订阅的需求。B站日志收集系统是基于Flume设计和搭建而成的。 数据采集是大数据的基石,近几年随着业务的高速增长,产生的数据量越来越大,并…

wKiom1mRgqqSJWNvAAMNCq-dWcE562.jpg-wh_651x-s_3257577405 0

蒋韬:大数据和人工智能在风险管理领域将大有可为

- 文章,数据分析,人工智能,数据挖掘 - 阅 1,377

在当前经济大环境下,银行业务风险水平上升,各家银行对提升自身风险防控能力的需求日益迫切,而银行传统风险管理体系缺乏灵活性、防控手段较为落后等弊端,与大数据覆盖面广、维度丰富、实时性高和人工智能技术飞速发展的特点相呼应,使银行风控成为大数据和人工智能的热点应用…

1100 0

解读差异——分类算法与聚类算法

- 文章,数据挖掘 - 阅 1,171

学习数据挖掘的朋友,对分类算法和聚类算法都很熟悉。无论是分类算法还是聚类算法,都有许多具体的算法来实现具体的数据分析需求。很多时候,我们难以判断选择分类或者聚类的场合是什么。我们最直观的概念是,分类和聚类都是把某个被分析的对象划分到某个类里面,所以觉得这两种…