专访 | 阿里iDST初敏博士和陈一宁博士:如何打破语音技术的落地怪圈 | 数盟社区

本文转自雷锋网

专访 | 阿里iDST初敏博士和陈一宁博士:如何打破语音技术的落地怪圈

人工智能技术大热,一茬接一茬的AI创业公司蜂拥而起,得到资本和媒体的宠爱。单是根据去年4月份的统计数据 ,就有170家Chatbot公司烧掉40亿美金。而“人工智能”自带黑科技光环的技术名词,更是每隔几个月都要在媒体头条上“战胜人类”一次。

今年3月初,Yann Lecun在Twitter上推荐了一篇评论文章,文章作者Bradford Cross表达了一个非常重要的观点:机器学习即服务(MLaaS)在实践中令人失望,而且AI公司往往陷入技术傲慢里而轻视了用户需求和公司经济学。

如果我们把2016年看做是AI在中国的初露锋芒的“元年”,受到百般呵护和追捧,那么到2017年,它就要面临严酷的商业社会考验了。因为归根结底,技术的终极价值都要体现在实际应用里。如何让AI技术有效落地、为商业社会创造真正的价值?围绕这个问题,AI科技评论近日采访了阿里iDST总监初敏博士(图右)和iDST语音技术产品化团队负责人陈一宁博士(图左),剥析阿里云在AI技术落地的过程里走过的坑和迈过的坎。

雷锋网:阿里NASA计划发布之后,iDST与NASA之间的关系是怎样的?

初敏:NASA是一个大的计划,我觉得是想把有难度的事情更集中在一起做好,而不是像以前一样分散在各个业务里。就我所在的团队而言,应该没有太大的影响。iDST还是集中解决自然语言、计算机视觉里比较难的问题。

雷锋网(公众号:雷锋网):你们为企业提供语音技术服务的形式是什么?

陈一宁:我们当然提供API、SDK这样底层的基础接入。也提供解决方案,但解决方案也分很多种,有的解决方案都细化到说函数都定义好了,就剩实现与否。我们的解决方案会更往上一点,就是给你一个大体的框架,至于最后软件设计成什么样子、最后的展现形态,我们也不需要特别地去掌控。所以我们还是主要跟合作伙伴一起完成一个项目,不是特别端到端大规模推广的一种模式。比如奥点云这个例子,我们会告诉对方搭建的整体框图是什么、如何去搭建,那么再细化的工作可能就不是由我们来做了。

雷锋网:阿里的语音技术目前在哪些垂直领域有比较成熟的应用?

陈一宁:这次我们发布的几个战略合作项目都是比较成熟的。第一个就是与昆石一起发布的质检云系统。实际上它是在做线路的质检,主要因为现在诈骗比较多,我们也是希望能够给社会做一些贡献。这个质检系统能够检测出一些常见的诈骗套路。经营者其实都是对于诈骗深恶痛绝的,但是又很难发现,靠人工来监听,成本实在是太高了。那么通过语音识别的方式,把语音变成文字以后,诈骗的套路就比较容易被检测出来。

第二个就是在直播里生成字幕。实时生成字幕在商用直播里正在逐步变成流行的功能了。他们的需求就是,有时候用户不能听、只能看,这个时候需要字幕;还有的比如会议直播,开完之后希望有一个速记稿出来,那就没有必要专门请一个速记员。所以我们跟奥点云合作的就是这类。

第三个就是泛质检类的服务。这一块我们有很多客户接入,举个例子,比如说像有一个做短租的合作伙伴,他们的商业模式就是充当一个中介的角色,但是如果中间沟通过程中,两头的用户之间自己打电话或微信私聊,那么这个商业模式就被打破了。所以,对于中介类的公司来说,最敏感的就是不能让两边的用户互留联系方式。但这件事实际上是很难判断的,那他们用了我们的服务以后,就可以帮助他们监听,来进行管理。

第四个就是我们的法庭速记。这已经有了一套完整的可复制的模式,自动化生成审判书,甚至现场状况好的时候,直接打印出来签字就可以了。

雷锋网:目前语音市场还是处在被教育的阶段吗?还是说现在已经有很多企业主动跑过来找你们了?

陈一宁:我们现在的情况是,主动找过来的企业,已经应接不暇了。那市场是不是还要被教育,我觉得也是的,跟一个大爆发市场相比,现在还是一个先期的状态。

初敏:我也觉的目前还是处在一个市场被教育的阶段,这不是一个所有人都去抢的well-developed的市场。

比如说像奥点云这样的一个项目,过去是没有的,在过去这个市场是不存在的。这个市场现在之所以会存在,是因为我们云栖大会上展示了这样的技术和案例,很多人看见了,就觉得自己也想要。我们当时在云栖大会的直播上出了字幕,所以很多做视频的就会说,我也想要这个,所以这才推动奥点云这个项目诞生。就生成字幕这个技术而言, 其实字幕只是一种外在的表现形式,里面更重要的是,语音转成文字之后,就拥有一种新的数据形态了,那你根据这些数据,可以对视频做检索,对视频内容进行分析等等,后续可以做很多事情。

再比如我们去法院里做速记,这也不是一个存量市场,一家法院用了之后,其他法院觉得挺好的,才开始有这个市场。所以我觉的,是我们在探索新的市场,但是具体到要把某一个领域真正做的好,不是单单靠我们这边把一套完整的东西做完,也要靠合作伙伴的精耕细作。

我们现在很重要的一个方向,就是把在新领域探索的合作项目经验和模式固化下来,这样我们在初期的投入才是有价值的。

雷锋网:现在你们的语音技术有一套固化下来的应用模式吗?

陈一宁:我理解是每一个行业是不太一样的。比如说像我们现在这种司法的领域,其中涉及到个整个数字法庭怎么布置、接入多少路的数据、数据更新、麦克风怎么摆放,什么样的设备进行回声消除、是否要有音量显示……等等整个一套流程,这就是这个领域特有的模式。

初敏:对。其实是说从某种角度来说,就是要把它变成标准化的流程。除了语音识别技术本身,同时可能要提供一些最基础的一些工具,比如说麦克风音量的监测(音量太大或太小都是不行的)。因为在初期,我们的合作伙伴没有相关经验,所以我们有时候就是要多往前走一步,帮他们一下。比如有时候两个麦克风特别近,或者现场一个喇叭就放在麦克风后面,这都是有问题的,那我们团队就要现场去指导部署。合作伙伴能搞定两个了,那之后复制一百个也没问题了,但是头两个我们都会派人去帮它一起看。

雷锋网:语音技术应用于具体的业务场景过程中,你们面临了哪些阻碍?

初敏:把一个看似很高大上的技术成功应用,真的是有太多的细节问题要去解决。就像我们云栖大会现场生成字幕,其实头两场云栖大会,我们最害怕的是接线,线路接不对,就会有巨大的噪声在里面,那就太吓人了。我记得有一次,就突然有电噪声,最后还是请教音频老师,只要把其中两个线路插在一个电线板上,问题就解决了,但我们之前并不知道。

所以,我们这一年时间做下来,切身体会到,语音技术落地真的不是闭着眼睛就能做到的。一般技术提供商,会想当然地认为,我们有API和SDK,你接入就好了嘛,其实远不是这么回事儿(笑)。这个过程中,就是要把工作做细,积累成一个可以复制的模式。

陈一宁:之前我们担心的很多问题,包括麦克风的选型、线路搭建、有没有引入噪声……这样的一些落地的细节中都会有很多问题会产生。

其实这场云栖大会的字幕,已经彻底是由供应商来做全部的事情了。以前的话,是我们团队自己来做,所以就一场一场慢慢来,到今年云栖大会的字幕、网上直播的字幕,已经都完全是由供应商来完成了,我们基本上就没有参与了。

我们就怕技术是一个Demo,就是我能操作,但换一个人用就不行了。所以我们初期跟合作伙伴磨合,做好几个具体项目后,后续让他们自己完全掌控,这就是我们特别希望达到的一个状态。

雷锋网:陈一宁老师,您之前在演讲中提到强定制化是阿里的核心竞争力,能具体讲讲吗?

陈一宁:语音技术的实现跟领域的相关性很高,它不像输入法,做出来一个,到哪里都能用。其实很多时候,你在一个领域里做好了技术,到其它场景就不能用了。通用的语音技术是无法满足客户特定需求的,那么我们会帮助他们去定制专属于自己的语音引擎。比如我们的ET智能语音系统正在逐渐对外开放,最简单有热词的设置(这个已经开放了),更进一步的还可以接入自己的领域数据,这一点我们内部业务团队已经在成熟地使用了,之后也会推广给外部合作伙伴。

医疗领域和电商领域,肯定是不相关的,在知识上讲,各自都有很多的词汇。客户在自己的领域都具有很多的知识和信息,那么客户把包含特色信息的文本输入进来,由我们的机器来学习这些文本,识别率就会得到提升。

阿里对于客户数据的保护是非常严格的,有非常高等级的要求。除了各种ISO认证,内部还有很多严格的规定,是不能看用户数据的。一般来说,各领域的知识,也通常不是敏感的信息。但如果是某些行业的数据敏感度高,那么我们也有专有云来做相关的事情。

雷锋网:初敏老师,您之前在演讲中谈到,对AI公司来说迭代的速度是非常重要的,为什么?

初敏:其实一个学习的过程,简单来讲就是给一堆数据,然后从中学个模型出来。但是如果从一个场景数据换到另一个场景数据,你能够多快学出来?

今天所有的机器学习里,如果做的规模比较大,训练过程是很慢的,有时几天、几星期都弄不好。通常小一点的企业,基本上都是按“月”来迭代的,都两个月、三个月才完成一次完整的调试。几十万和几千万的样本规模是很不一样的。典型的语音识别,如果是2千个小时的数据,只用一块卡,可能需要好几天才能迭代一次,那如果是2万个小时的数据,基本上就不可行了。所以,很多的时候,底层的技术保障也是必须的。

我们现在要花很多时间做多机多卡,其实训练模型在整个过程中间也只是非常小的一环,在整个链条里只占三分之一的时间,剩下三分之二的时间就是在倒腾数据。比如我们今天,把数据存在某个地方,然后把它拿出来提升feature,然后还要做一轮预处理(例如语音识别需要做传统的HMM),这一套前期的工作可能比在GPU上进行深度学习训练花费的时间还要多。实际上,迭代速度决定了你的进步速度,是让A和B真正产生差别的地方。真正到大规模训练和应用的时候,底层的基础设施能力是非常非常重要的。所以今天高校研究就面临很大的挑战,就是因为当面临大规模数据的时候,就会做不了,所以通常高校老师会做算法本身的研究。

那我们现在希望把这个速度做到按“天”迭代。这当中就是主要是基于阿里云的云计算平台的优势。我们从数据的存储、处理,到不同阶段在CPU、GPU上的打通,并发性比较好,所以才会比较快。

雷锋网:AI行业里有一个很经典的问题,就是现在大部分AI公司都是拿着锤子找钉子。你们如何解决找“钉子”(用户需求)的问题?

初敏:阿里整个的氛围就是比较务实的。我觉AI技术在阿里比较容易成功落地,是因为我们比较幸运地可以借助很多外力。首先就是有非常多的业务场景,这个是别人很难得到的,往往得到其中一个就很难,而我们手里有8至10个非常好的业务场景。你的技术只有在真正用的时候才能打磨,最终做到真正好用。所以这就是我们觉得很兴奋的地方,就像一宁昨天晚上工作到2点才休息,其实我们团队很多人真的每天都是这么拼的。因为你有很多的业务场景,只要你有能力,你都可以去做。

我们不是到处要找“钉子”,而是“钉子”堆上来了,就看你搞不搞的定。所以我们始终处在一个超级兴奋的过程中,恨不得每天多做点事儿(笑)。再有一个就是,阿里云这些非常好的基础设施,使得我们在起步的时候,门槛就低很多。

所以虽然我们只有几十个人,但我们做了很多事情。当然,这些事情也并不全是我们自己做的,我们在内部有很多合作伙伴,特别是工程落地方面,内部业务都是合作伙伴做的。所以我觉的特别幸运,就是你有场景、有数据、有很好的计算平台,还有特别多的合作伙伴一起做事情,我觉得这是我们特别有优势的地方。

雷锋网:如何看待以亚马逊Alexa为代表的语音助手,它们会成为取代手机的下一代的入口载体吗?

初敏:取代手机是不太可能。无论是什么入口,最终的大目标是一致的:为了获取网上或云上的信息。有时候手机触摸交互就很方便,那如果我在做饭,也许一个语音交互的冰箱就更合适。在不同的场景中,会用到不同的端。

我认为,未来并不是每一个家电设备都要具有接入语音的能力,一个场景里有一个主导设备(Hub)就可以了,可能是音响、Wifi设备或电视等等,并没有太本质的区别。无非就是有没有麦克风和扬声器,有没有摄像头,最理想的状态就是能跟别的设备都连在一起,那家居的数据联通问题,就是我们IoT的团队在做,在慢慢尝试做一个接入体系。

那到底是哪类家居会成为它所在场景里的Hub,我觉的目前这个是不明确的,大家都在尝试阶段。

雷锋网:2016年你们主要做了什么工作?2017年主要的目标是什么?

陈一宁:2016年最主要的事情,就是我们从零开始,对外提供产品化的语音技术。这让我们真正意识到,我们的技术确实能够帮助到户,这非常令人振奋。

未来一段时间,我们更多的是希望跟合作伙伴的业务结合,把已有的合作样例变成成熟的解决方案,推广给更多的客户,这是我们今年着重关注的事情。

初敏:过去一段时间,我觉得我们跑的非常快。在别的企业里头,可能花了十年时间积攒的技术,我们2年就做出来了,技术本身的迭代非常快。

我们并不是在追求技术的“高大上”,而是希望把技术做好,最终能落地。那么一宁的团队冲在最前面,我们的团队比较在后方一些。语音这个技术,到底能怎么用,过去大家一想,就说“个人助理”。但今天我们看到了,远远不止这么一个用途。我们所有的市场,都不是存量市场,都需要去开拓。

我们的团队成员很多是做研究出身的,我们就有一个特别大的梦想,就是把这个技术做到真正可以使用。过去这一年,真的是让我们看到这个梦想实现的希望,这条路越开越宽,这是我觉得特别兴奋的。

注:转载文章均来自于公开网络,仅供学习使用,不会用于任何商业用途,如果侵犯到原作者的权益,请您与我们联系删除或者授权事宜,联系邮箱:contact@dataunion.org。转载数盟网站文章请注明原文章作者,否则产生的任何版权纠纷与数盟无关。
期待你一针见血的评论,Come on!

不用想啦,马上 "登录"  发表自已的想法.