Hadoop之父Doug Cutting:AI将为Hadoop社群的未来带来挑战 | 数盟社区

7月13日~15日,全球最顶级大数据会议Strata Data Conference在北京召开。在会议上,我们看到了一个熟悉的身影——“Hadoop之父”、Cloudera 首席架构师Doug Cutting。

在本次会议召开之前,DT 君对这位 Hadoop 之父进行了独家专访。在采访中,Cutting 认为 ,Hadoop 的成功证明了开源已是我们身处数字转型时代的必要条件,但也认为 AI 的发展将为 Hadoop 社群带来整合开发资源的挑战,并提醒大众在数据应用与隐私之间找到平衡点。

图丨Hadoop 之父 Doug Cutting(图片来自DeepTech驻台湾编辑詹子娴)

随着数据量愈加庞大,想要有更高效率的处理方式,就需要有新的工具出现,Hadoop 就是其中的代表。Hadoop技术不仅开启了大数据时代,更成为孕育大数据技术的摇篮,至今发展也超过十个年头。

起初,Doug Cutting 希望以开源架构开发出一套搜索技术,类似于现在的 Google Search 或是微软的 Bing,刚好 2004 年 Google Labs 发布了关于自家大数据分析、MapReduce 算法的论文。Doug Cutting 利用 Google 公开的技术扩充他已经开发出来的 Lucene 搜索技术,进而打造出了 Hadoop。

Hadoop 是基于开放源代码所建构,用于分散式处理和分析电脑丛集上的巨量资料集,也可以想成是一个能够储存并管理大量资料的云端平台。它主要有两个核心技术,分别是分布式档案系统(Hadoop Distributed File System,HDFS)以及 MapReduce 技术。

当企业储存大量的资料时,透过 HDFS 技术把大量的资料切割成小份,储存并备份在多个节点。而当企业需要进行资料分析处理时,就在先各个节点上处理这些小份的资料,之后再把这些结点算出来的片段结果传回到中央进行归纳整合,这就是 MapReduce。

 

正因为透过多节点分工来处理巨量资料,解决了档案储存的问题,同时也大幅缩短了运作时间,让 Hadoop 成了大数据的主流技术,知名大企业如Google、Facebook、沃尔玛、银联、联通、台积电等,都利用了 Hadoop 技术。

不仅如此,还成就了庞大的 Hadoop 生态圈,象是今年刚在纽交所上市的 Cloudera,就是基于 Hadoop 架构开发大数据工具最知名的公司,其他的还有 Hortonworks、New Relic 都是从新创公司走向上市,MapR 也有意申请IPO。

Doug Cutting 表示,Hadoop 的意义不在技术,更大的意义在于“数字转型”(digital transformation),从 Hadoop 的成功经历我们可以学到几件事:首先、开放源代码已经是必要的,例如在 20 年前他开发出 Hadoop 的前身— Lucene 开源代码搜寻技术时,并没有料想到 Lucene 会成功,“因为它并不是最好的技术,也不完美,但它因为是属于开放源代码,透过社群的力量,使它成为了最好的搜索技术。”对使用者来说,现在更多想要的是开放源代码的软件。

第二件事就是数字转型需要不同的运算跟储存架构。在完成 Lucene 之后几年,Cutting 就开始投入到 Hadoop 的研发之中,“你可以看到整体的应用已经兴起,它的成功在于满足了大家的需求。”在 Hadoop 之前,几乎所有的资料或应用程序都要被储存在分开的系统里,但有了 Hadoop 之后,它们可以被存在单一的系统里,在扩充性、处理运算方面有更好的成效。

在这十年间, Hadoop 被大量应用于真实的商业环境中,而且还有很多衍生的工具或专案都是围绕 Hadoop 为中心发展出来,例如可支援 SQL 语法的 Hive、专门用于 Hadoop 档案系统上的资料库系统 HBase 等,Hadoop 生态系统相当多元且十分强大,有 20~30 个开放源代码程序可以共同运用。

而人类也从未停止对科技的追求,大数据流行了之后,人工智能成为最新的关键字,要发展人工智能不可缺少的一项关键就是数据,Doug Cutting 指出,Hadoop 与机器学习、AI 有高度关联性,要训练、测试、评价人工智能都需要数据,许多开发者在 Hadoop 平台上写了很多应用程序,可以利用这个平台搜集各种巨量数据,支援 AI 和机器学习的数据也是爆炸性成长,很难有一家公司可以做到提供这么大量的工具。

图丨Data Science Workbench 界面

Hadoop 也推出了一项新的 Data Science Workbench 工具,可以让客户在 Hadoop 丛集里面选取符合企业内部安全政策或偏好的工具。他也举例,Tesla 在发展自动驾驶汽车上,搜集了道路、环境、驾驶行为等诸多数据,将这些数据串流到后台资料中心就是使用 Hadoop 的技术作为支持。

不过,他也坦言,AI 和机器学习领域无疑是 Hadoop 未来面临的挑战之一,“目前许多机器学习跟 AI 技术许多都是开放源代码技术,革命不是由单一组织推动。”但是,从发展历程来看,现阶段 AI 和机器学习方面的社群很分散,各自发展,各立山头,所以整个社群都应该团结起来才行,让一些优质的方法走向标准化,全力进一步开发,加速其进步速度,这才会是比较好的方式。”

说到 Hadoop,其实还有一个 Cutting 与他小孩的小象玩具有关的故事,这位 Hadoop 之父只要有公开活动几乎都会带着那只色小象。他指出,给软件命名不是件太容易的事,要尽量找没有被使用过、没有带有意义的字,否则把它写进了程序就可能会影响编程。

就是因为这个原因,Doug Cutting 看到他儿子在牙牙学语时,抱着黄色小象,亲昵的叫 hadoop,他灵光一闪,就把这技术命名为 Hadoop,而且还用了黄色小象作为标示 Logo,不过,事实上的小象瘦瘦长长,不像 Logo 上呈现的那么圆胖。“我儿子现在 17 岁了,所以就把小象给我了,有活动时就带着小象出席,没活动时,小象就丢在家里放袜子的抽屉里。” Doug Cutting 大笑着说。

图丨Doug Cutting 手拿的黄色小象就是命名 Hadoop 的灵感来源

在 Doug Cutting 接受 DT 君专访的第二天(7月13日)正是他的生日,身为 Hadoop 之父,令人好奇如果要为 Hadoop 许下一个愿望,那会是什么?他回答的第一个答案居然是“不知道,Hadoop 已经很成功了,很难再帮他许什么愿。”但接着想了一下,他倒是说出了一个有趣的答案,就是“希望大数据的应用能在资料的生产力与隐私间找到平衡。”

他进一步解释,希望大家能持续找到大数据可以发挥作用的地方,但他对隐私领域特别感兴趣,“必须在大数据应用、技术开发与保护隐私之间取得平衡”。这部分是很需要思考的问题。各界在利用大数据时经常会引来争议,有时太过重视大数据,对个人隐私又会造成威胁,有时太过担心隐私保护,又会使得大数据工具无法发挥它的最大效用。而且每一个国家对隐私的道德标准跟预期都不同,所以解决方法也会不同。只能互相学习。

而 Doug Cutting 的身份除了是 Hadoop 之父外,也是 Cloudera 的首席架构师。Cloudera 可以说是 Hadoop 生态圈里最知名的公司,核心产品是为企业客户搭建基于 Hadoop 的大数据平台,帮助企业安装、配置、运行 Hadoop 以进行海量数据的处理、分析以及机器学习。

也因为大数据前景看好,2014 年 Cloudera 当时估值 41 亿美元时,英特尔就斥资 7.4 亿美元收购 Cloudera 约 18% 股份(在今年 1 月英特尔持有 Cloudera 22% 的股份)。Cloudera 在今年四月底正式于纽交所上市,发行价为每股 15 美元。

图丨Cloudera 上市

不过,顶着光环挂牌的 Cloudera,上市后交出的第一份财报却不如市场预期,第一财季每股亏损 5.78 美元,比分析师预期的每股亏损 2.45 美元还要多。尽管大数据的市场需求依旧很高,但为何财务表现似乎不符合这样的趋势表现?

Doug Cutting 先是表示他不是财务人员,但可以稍微解释一下,其实 Cloudera 在客户跟营收方面的成长是很稳定,令大家意外的应该是成本支出部分。企业对于大数据及机器学习的需求增温,但企业对于新科技的导入不会一步到位,而是采取渐进的方式,因此很多客户一开始都是小规模引进,但是根据 Cloudera 内部的评估可以发现,每一个客户在每一年引进或增加 Cloudera 的服务都有 40% 的成长。大数据发展很重要一点是平台会长出越来越多的应用,这就会带来更多平台的扩充需求,相信之后就能看到业绩提升。

文章来源: DeepTech深科技

注:转载文章均来自于公开网络,仅供学习使用,不会用于任何商业用途,如果侵犯到原作者的权益,请您与我们联系删除或者授权事宜,联系邮箱:contact@dataunion.org。转载数盟网站文章请注明原文章作者,否则产生的任何版权纠纷与数盟无关。
期待你一针见血的评论,Come on!

不用想啦,马上 "登录"  发表自已的想法.