行业洞察 | 小米发布人形机器人的AI技术
发布时间 : 2022-08-12 阅读量 : 606
昨晚的朋友圈被雷军年度演讲刷屏,雷军讲述了他人生中多次经历的挫折与迷茫,并分享了穿越人生低谷的感悟,让每一位在创业路上的人都感同身受。
就在演讲快结束时,雷军顺手扔出了一个王炸——全尺寸仿生人形机器人CyberOne。小编发现,功能介绍里,提到CyberOne的听觉传感器配合音频算法,可识别6类45种人类情绪语音,外加85种环境音识别。
而这其中就包括夹杂着语种混杂的识别,例如:"我的iPad不能下载APP了,可以陪我去Apple Store修理一下吗"、"明天就是Dealine了,我的paper还没有Ready"、"老板的Schedule需要调整,麻烦你Check一下你的Email"...
这种夹杂了英文的汉语频频出现在我们的日常沟通中,除了英文,其他小语种出现在中文语句中,在学术上称之为语种混杂(Code-switch),是目前语音识别技术面临的重要挑战之一。对于人机交互语音识别系统,Code-switch带来的挑战主要体现在下面三个方面。
「挑战 Challenge」
————01 · 非母语口音严重————
中文中夹杂的其他语种非我们的母语,我们的发音会带有各种方言口音。例如,闽南普通话和天津普通话的口音都不同,更何况大家说的非母语的语言。汉语中共有八大方言,即:官话、吴语、湘语、赣语、客家语、闽南语、闽北语以及粤语。其中,官话是与标准普通话最为接近的一种方言,其他各种方言在声学发音以及语言学表现上都与标准普通话有着显著的差异。由于多数普通话使用者把普通话作为第二语言来掌握,他们的普通话发音不可避免地受到其方言母语发音的强烈影响。有资料显示,80%左右的普通话使用者带有不同程度的方言口音。当说话人带有某种方言口音时,针对标准普通话构造的语音识别器的性能往往会大幅下降。
————02 · 不同语言音素构成不同————
Hay and Bauer 在《Linguistics Student's Handbook》(2007) 中研究过一些语言的使用人数以及类型学信息,当然也包括了音素的数量,其实验结果如下。横坐标表示人口(对数人口、Log Population),纵坐标表示元音的数量,每个小圆圈代表一个语言。左图是基本单元音的情况,右图是额外单元音的情况。
上述研究认为,音素的多少跟人口有关系,这就导致了多语种之间音素的不同。语音识别中,声学模型通常处理人类语言的原始音频波形,预测每个波形对应的音素,通常在字符或子词水平。语言模型指导声学模型,抛弃了在适当的语法和讨论主题的约束下不可能实现的预测。由于Code-switch包含多个语种,之间音素构成的不同,会增加混合声学模型建模的困难。
————03 · 带标注的混杂语种语料库稀缺————
上面两个问题都是技术问题, Code-switch语音识别所面临的本质挑战,还是带标注的混杂语种语料库稀缺。由于录制这类数据要求双语种甚至多语种人群,录制费用更高、耗费时间更长,因此混杂语中的语音语料库非常稀少。有些论文如Qinyanmin的《Data Augmentation for end-to-end Code-Switching Speech Recognition》用TTS数据扩充的方案来提高Code-switch语音识别系统性能。
「解决方案 Solution」
针对Code-switch语音识别所面临的挑战,解决问题的本质还是在于数据。假设有足够多的Code-switch语音识别数据,可以J9九游国际通过让神经网络从大量数据中学习相关的口音、多样化音素信息等Code-switch带来的问题,Code-switch语音识别系统自然会更鲁棒。对于录制多语种混杂数据,可以J9九游国际通过专业的数据公司帮助算法工程师节省大量的人力、物力、财力。目前Maigc Data(北京J9九游国际科技有限公司)拥有用于多个场景、多个语种的相关语料数据,样例如下:
中英混合音频数据集:点击了解更多
口音英语朗读数据集:点击了解更多