个人数字助理:如何避免从人工智能沦为人工智障 | 数盟

“您已连续驾驶两小时,我注意到您现在有些疲劳,需不需要听些音乐休息一下,或者为您导航到附近的餐厅补充一下能量。”当汽车里的个人数字助理用甜美的声音“说”出上述温馨提示,是不是想想就觉得特别美好?然而,事实却并非如此。

近日,借着各大电商平台促销之际,笔者打算购入一款个人数字助理终端尝鲜,可没想到的是,在购买评论中各种吐槽占据半壁江山:“必须用标准的播音腔,一点口音它都听不懂”“鸡同鸭讲,累觉不爱”“什么人工智能,简直人工智障”……作为人工智能领域起步较早且贴近最终用户的应用之一,个人数字助理怎样才能实现真正的智能化?

语音交互是个人数字助理的智囊

人工智能很多重要应用都需要各方面能力的支持,很多专家都提出,个人数字助理是其中一个重要的“落地”领域。实时性,是个人数字助理的一个重要特征,正因如此,从能效的角度看,个人数字助理对模型的高效性有着非常高的要求。同时,如何在听觉、意图和行为的层面提供个性化的服务;如何不断了解个人行为、调整模型,并进行学习和训练也是其面临的挑战。此外,从系统架构来看,情景感知是个人数字助理的重要特性,而推动传感器多模态学习和多模态融合,是其未来能力体现的重要角度。

在个人助理所涉及的诸多技术领域中,语音交互是关键。有专家指出,语音是最终用户一直期待的、具有变革性的人机交互界面。尤其是在用户无法用手去触及终端的应用场景中,语音界面的存在感和价值便凸显出来。放眼全球,无论是运营商、互联网巨头还是制造企业都对语音交互寄予厚望。苹果推出了Siri、亚马逊有Alexa和Echo、微软有“小娜”,Orange和Telefonica等运营商也将借助智能音箱进军个人语音助手领域。在国内,中国移动和科大讯飞打造了灵犀,百度推出度秘,阿里拥有天猫精灵等。

正因如此,从某种程度来看,语音交互的智能程度,决定了个人数字助手的智能程度。从技术的发展趋势看,语音交互功能正从云端向终端侧快速迁移。现在,从商用面来看,语音交互还更多是一个以云端为中心的架构,即便如此,出于对低功耗、实时性的考虑,语音交互所需的一些功能如语音降噪和语音激活都已经在终端侧进行处理。但是,我们也必须认识到,从云端到终端侧的迁移是一个渐进的过程,包括语音识别、自然语言理解以及文字转语音在内的更多功能,会逐步演进到以终端为中心。在这个过程中,由机器学习驱动的端到端解决方案将推动这场迁移。

那么,终端侧处理语音交互有什么优势?首先是隐私保护。出于私密性考虑,很多用户并不希望自己的数据被上传到云端进行处理。其次是即时响应。在终端侧进行语音处理,不仅能及时响应,还能无中断地进行处理。此外,还有始终开启以及情境感知等优势。比如在终端侧,个人数字助手就能感知当时语音处理的背景、知道用户在与谁交流、了解用户当时语言表达的情绪,从而及时调整自己的交流方式。

当然,这并不意味着云端处理已经被淘汰。专家指出,未来语音交互长远的发展方向是云端跟终端紧密结合。比如一些复杂的语音在终端无法完全处理的情况下,需要回落至云端。此外,模型训练、模型更新、知识库应用等一些更宽泛的服务,通过“端云互补”的方式,可以更好地对信息进行处理。

最终目标是“终端里数字化的我”

如何才能打造出低功耗、个性化、智能化的语音解决方案?

首先要做到语音降噪,这样才能更好地处理语音信号。当语音信号被采集后,可以用二维图像的形式呈现出来,也就是声谱图。针对图形分类,不少企业和研究机构已经有了比较完整的模型,他们正考虑把针对图像的处理方法用在语音解决方案上,让语音降噪在某种程度上变成图像处理。再通过深度学习的模型进行降噪处理,为下一步提供条件。

其次是语音激活,即语音交互界面需要知道什么时候与人进行交互。语音激活需要始终在线,以判断什么时候准备进入交流环节。

完成上述步骤后,就进入人机交流阶段了。这个阶段可以分为三步:第一步将声学特征提取出来;第二步通过深度学习的模型,将声学特征转化为语言单元;第三步通过语言模型和自然语言理解,把语言单位表达为最终的用户意图。这整个过程就是终端侧自动语音识别,在此过程中,语音助手一方面要有很好的识别能力,另一方面还需要通过适应用户的口音、环境、偏好,来进一步提升用户体验。

在这样的语音交流基础上,就能建立真正智能的个人数字助理。专家指出,真正的个人数字助理可以简要概括为“住在终端里的一个数字化的我”。个人数字助理的关键功能除了强调具备情境感知能力,还要能根据情境感知获取的信息,为用户提供个性化的服务和推荐。

具体到技术层面,第一步也是最重要的一步,是实现终端侧的语音交互。第二步需要考虑如何将对话系统升级,使它能够持续学习用户的个人信息,和用户进行自然交互。最后一步是以情境感知的方式支持在听觉、意图和行为层面实现个性化,这是推动人工智能发展的最关键的方向。情境化不仅需要利用虚拟世界的数据,也需要利用物理世界的数据,如何把二者融合到一起,是情境化在未来一个重要的技术演进方向。

注:转载文章均来自于公开网络,仅供学习使用,不会用于任何商业用途,如果侵犯到原作者的权益,请您与我们联系删除或者授权事宜,联系邮箱:contact@dataunion.org。转载数盟网站文章请注明原文章作者,否则产生的任何版权纠纷与数盟无关。
期待你一针见血的评论,Come on!

不用想啦,马上 "登录"  发表自已的想法.