数据挖掘 | 数盟 | Page 6
20170724095946963 0

手把手教你用R处理常见的数据清洗问题(附步骤解析、R语言代码)

- 文章,数据分析,数据挖掘 - 阅 534

R是进行运算、清洗、汇总及生成概率统计等数据处理的一个绝佳选择。此外,由于它独立于平台、短期内不会消失,所以生成的程序可以在任何地方运行。并且,它具备非常棒的辅助资源。 本文摘录自James D.Miller撰写的《数据科学统计学》(Statistics for Data Science)一书,该书…

ce5fd91f344ec130f6f42ec265c51839.jpeg-wh_651x-s_2415570986 0

备好数据后,数据科学家还要做什么?

- 文章,数据分析,数据挖掘 - 阅 266

  大数据文摘出品 编译:元元、张馨月 在这个数据科学越来越火的时代,数据科学家的工作到底是怎样的呢? 数据科学越来越火,很多人都想转行入坑数据科学家,这当然是好事。可是很多人都以为数据科学、机器学习等等流行词对应的工作,就是把数据塞进Sckit-Learn这个算…

20180614035943681 0

瑞银预测德国赢,高盛“赌”巴西,谁才是世界杯预测之王?

- 文章,数据分析,数据挖掘 - 阅 456

人类天生对于未来可能会发生的事一直有很浓厚的兴趣,古代有夜观天象的预言家,当代则有各式各样的预测方式如统计分析、大数据、人工智能,最近全球最火的预测莫过于在俄罗斯开打的 2018 FIFA 世界杯足球比赛,哪个国家会踢进前四强,谁又能夺下本届冠军?球迷、预测或分析机构也…

cca94a6d20d60c1c7b10e44216a873cb.jpg-wh_651x-s_179035833 0

6个人如何维护上千规模的大数据集群?

- 文章,数据挖掘 - 阅 1,070

本文主要介绍饿了么大数据团队如何通过对计算引擎入口的统一,降低用户接入门槛;如何让用户自助分析任务异常及失败原因,以及如何从集群产生的任务数据本身监控集群计算/存储资源消耗,监控集群状况,监控异常任务等。 饿了么 BDI-大数据平台研发团队目前共有 20 人左右,主要负…

679e4a1d226f59409cc7b483ab5dfa82.jpg-wh_651x-s_484174679 0

复杂与失控的现实:大数据平台的思考

- 文章,数据分析,数据挖掘 - 阅 578

面对着数据失控、技术失控和需求失控的问题,我们到底是要想尽一切办法去控制,还是顺应、包容甚至是欣赏这些失控,这是在我们智能数据平台研发道路的起点上需要思考的问题。 目前我们正在规划我们新一代的智能数据平台。这几年以来,我们也一直在尝试做一个足够强大的数…

数据科学家 0

谷歌、Facebook已成数据寡头,去中心化数据交换打破垄断

- 文章,数据分析,数据挖掘 - 阅 320

只有少数几家公司能够获得大数据、人工智能和机器学习的能力,可以将其转化为产品。这造成了数据拥有者和数据贫乏者之间不平等的鸿沟,以及大数据行业的寡头垄断。打破寡头垄断的最佳方式就是“用开放数据的海洋淹没数据竖井”。  只有少数几家公司能够获得大数据、人工智能和机器…

5-82 0

数据科学“内战”:统计vs.机器学习

- 文章,数据分析,人工智能,数据挖掘 - 阅 364

和武侠世界里有少林和武当两大门派一样,数据科学领域也有两个不同的学派:以统计分析为基础的统计学派,以及以机器学习为基础的人工智能派。 虽然这两个学派的目的都是从数据中挖掘价值,但彼此“互不服气”。 注重模型预测效果的人工智能派认为统计学派“固步自封”,研…

640.webp (1) 0

深度学习任务面临非平衡数据问题?试试这个简单方法

- 文章,数据分析,数据挖掘 - 阅 429

对于数据科学或机器学习研究者而言,当解决任何机器学习问题时,可能面临的最大问题之一就是训练数据不平衡的问题。本文将尝试使用图像分类问题来揭示训练数据中不平衡类别的奥秘。 数据不平衡问题是什么? 在一个分类问题中,当你想要预测一个或多个类中的样本数量极少时,可能…