数据挖掘 | 数盟 | Page 10
20180614035943681 0

瑞银预测德国赢,高盛“赌”巴西,谁才是世界杯预测之王?

- 文章,数据分析,数据挖掘 - 阅 495

人类天生对于未来可能会发生的事一直有很浓厚的兴趣,古代有夜观天象的预言家,当代则有各式各样的预测方式如统计分析、大数据、人工智能,最近全球最火的预测莫过于在俄罗斯开打的 2018 FIFA 世界杯足球比赛,哪个国家会踢进前四强,谁又能夺下本届冠军?球迷、预测或分析机构也…

cca94a6d20d60c1c7b10e44216a873cb.jpg-wh_651x-s_179035833 0

6个人如何维护上千规模的大数据集群?

- 文章,数据挖掘 - 阅 1,109

本文主要介绍饿了么大数据团队如何通过对计算引擎入口的统一,降低用户接入门槛;如何让用户自助分析任务异常及失败原因,以及如何从集群产生的任务数据本身监控集群计算/存储资源消耗,监控集群状况,监控异常任务等。 饿了么 BDI-大数据平台研发团队目前共有 20 人左右,主要负…

679e4a1d226f59409cc7b483ab5dfa82.jpg-wh_651x-s_484174679 0

复杂与失控的现实:大数据平台的思考

- 文章,数据分析,数据挖掘 - 阅 618

面对着数据失控、技术失控和需求失控的问题,我们到底是要想尽一切办法去控制,还是顺应、包容甚至是欣赏这些失控,这是在我们智能数据平台研发道路的起点上需要思考的问题。 目前我们正在规划我们新一代的智能数据平台。这几年以来,我们也一直在尝试做一个足够强大的数…

数据科学家 0

谷歌、Facebook已成数据寡头,去中心化数据交换打破垄断

- 文章,数据分析,数据挖掘 - 阅 361

只有少数几家公司能够获得大数据、人工智能和机器学习的能力,可以将其转化为产品。这造成了数据拥有者和数据贫乏者之间不平等的鸿沟,以及大数据行业的寡头垄断。打破寡头垄断的最佳方式就是“用开放数据的海洋淹没数据竖井”。  只有少数几家公司能够获得大数据、人工智能和机器…

5-82 0

数据科学“内战”:统计vs.机器学习

- 文章,数据分析,人工智能,数据挖掘 - 阅 403

和武侠世界里有少林和武当两大门派一样,数据科学领域也有两个不同的学派:以统计分析为基础的统计学派,以及以机器学习为基础的人工智能派。 虽然这两个学派的目的都是从数据中挖掘价值,但彼此“互不服气”。 注重模型预测效果的人工智能派认为统计学派“固步自封”,研…

640.webp (1) 0

深度学习任务面临非平衡数据问题?试试这个简单方法

- 文章,数据分析,数据挖掘 - 阅 462

对于数据科学或机器学习研究者而言,当解决任何机器学习问题时,可能面临的最大问题之一就是训练数据不平衡的问题。本文将尝试使用图像分类问题来揭示训练数据中不平衡类别的奥秘。 数据不平衡问题是什么? 在一个分类问题中,当你想要预测一个或多个类中的样本数量极少时,可能…

timg (3) 0

手把手教你写网络爬虫(3):开源爬虫框架对比

- 文章,数据挖掘 - 阅 1,319

本系列: 《手把手教你写网络爬虫(1):网易云音乐歌单》 《手把手教你写网络爬虫(2):迷你爬虫架构》 [crayon-5beb14f3da6f9613287316/] [crayon-5beb14f3da704191822548/] [crayon-5beb14f3da707318437436/] [crayon-5beb14f3da7…

bcc51140083e0bca61eafb022f51d5bc.jpg-wh_651x-s_1271045370 1

手把手教你写网络爬虫(2):迷你爬虫架构-通用网络爬虫

- 文章,编程语言,数据挖掘 - 阅 815

介绍 大家好!回顾上一期,我们在介绍了爬虫的基本概念之后,就利用各种工具横冲直撞的完成了一个小爬虫,目的就是猛、糙、快,方便初学者上手,建立信心。对于有一定基础的读者,请不要着急,以后我们会学习主流的开源框架,打造出一个强大专业的爬虫系统!不过在此之前,要…