J9九游国际

最新发布!查看 MagicData 成品数据集

新闻

press images

行业洞察 | 对话式AI : 语音助手时代的开启

发布时间 : 2022-06-20     阅读量 : 791

对话式交流是人与人之间相互理解、彼此传递信息最方便、最重要的媒介。如今,是人工智能的时代,也是每个人都能够拥有语音助手的时代。几乎每个人手机上都有个 “小爱同学”,“Hi Siri” 或者 “叮咚叮咚”... 这些语音助手。

但是,目前我们与这些语音助手的交互还不能如同人类交流一般顺畅自如。语音助手在与人的交流中,很容易陷入 “傻瓜模式” 或者 “固定套路回答模式”,经常答非所问,更不用说和人们智能、个性化交互。这主要是由于这些语音助手背后缺乏对语音语义的准确理解、对话逻辑的构建以及正确的反馈。

语音助手的看似仅仅是个手机APP,但其内部算法原理却异常复杂。其普遍结构通常需要四组输入和输出,管道的每一层都分别需一组自然语言理解(NLU)、对话状态跟踪(DST)、对话策略管理(DP)和自然语言生成(NLG)。复杂的结构使得语音助手的智能化变得充满挑战。

多个功能模块的联合优化

对话式AI语音助手使用语音进行交互,底层算法涉及语音识别、自然语言理解、对话跟踪、决策管理和语音合成等个模块。每个模块使用不同的深度神经网络模型和算法来构建,彼此之间相互协作才能完成语音助手与人类之间的交流。每个模块单独优化会往往会陷入局部最优。如何保证多个功能模块之间相互促进、共同优化是这一问题的难点。

真实场景下对话数据紧缺

AI语音助手算法模型的训练依赖大量对话标注数据。由于对话式语音交互数据采集场景复杂、采集过程需要多人配合、且采集周期较长,导致这些数据稀缺。任何深度学习工作研究的前提都是数据,这些数据采集、清洗、标注、发布工作的耗时、耗力、人工成本高都阻碍对话式AI助理发展的绊脚石。

端到端神经网络联合优化

为改变人工智能助手目前的困境,Meta AI 宣布了 “CAIRaoke计划”。他们开发了一种端到端神经模型,该模型比人们现在所熟悉的系统更支持个性化的情境对话。与传统人工智能助手不同,在 Meta AI 的神经网络模型中几乎不存在事先设定好的会话流,使用这个模型,只需要一组真实场景录制的训练数据即可。同时,端到端联合优化可以消除对上游模块的依赖,进而提高开发和训练速度,使人们以更少的功耗和数据对其他模型进行微调。由 “CAIRaok 计划” 所开发的模型,用户可以随意地与他们购买的人工智能会话助手沟通,这样他们就可以在对话中引用早些时候的内容,如果全部改变话题,或者提到依赖于理解复杂、微妙的上下文的情景,他们还能够以新的方式与机器人互动,比如使用手势。

采用大量对话式标注数据

对话式 AI 交互数据的缺乏导致智能语音助手没有足够的学习样本变得更 “聪明”。由于对话式 AI 语音助手产品往往面向的是全球消费者,因此采集多语种、多场景、多种说话风格的对话式语音数据,赋能语音助手更全面的学习样本,是促进AI语音助手与人畅所欲言,对答如流的关键。目前, 作为全球领先的AI数据解决方案提供商为算法工程师提供大量对话式交互数据。其中包括不同语种、不同风格、覆盖不同场景的对话式数据,样例如下:

法语对话音频数据集:点击了解更多

郑州话对话音频数据集:点击了解更多

数据是一切深度学习算法研究和落地的基石。人工智能语音助手的成长离不开数据和算法的双向加持。

即刻与 建立联系?

联系我们

TOP
联系我们
Sitemap