我遇见了我 | 虚拟数字人的养成,FaceGood 虚拟数字人开源技术研讨会
发布时间 : 2022-02-14 阅读量 : 1090
2022开年, 和虚拟数字人制作公司FaceGood,以及清华大学,思必驰等机构,举办了一场虚拟数字人开源技术研讨会。 创始人兼CEO张晴晴博士受邀出席论坛。在论坛上,就虚拟数字人驱动技术、软组织动作捕获跟踪技术、交互技术、数据处理技术进行了热烈的交流。
多模态数据处理系统Annotator?5.0,为虚拟数字人的底层架构提供了基础重要的多维度数据支撑。
不断涌现的虚拟数字人 在元宇宙的巨大的市场中,高精智能的虚拟数字人仿佛一夜之间渗透到了各行各业,正吸引着海内外厂商加速布局元宇宙赛道。能在另一个宇宙中遇见不同声音、样子甚至不同性别的自己,这让生活在现实中的人们产生了真实的期待。
虚拟数字人需要多模态的技术驱动和丰富的数据支撑,才能让数字人“立体”起来。过去的数字人,更多的是只是一种感官存在的“物品”。他们会微笑,会说话,会唱歌,但他们没有情感,不会和人交流。
情感人机交互 ——“对话式AI”技术与数据
人工智能的终极形态是情感需求,虚拟数字人能够刺激到人类的情感需求,前提是他们必须做到与人交互,“对话式AI”技术与数据,能够实现虚拟数字人与人类交流相处。
“对话式AI”需要全流程的准确和高效,将用户语音转换为文本,理解文本含义,搜索符合语境的最佳应答,最后使用文本转语音工具提供应答。
在技术层面,对话式 AI涉及语音识别、自然语言理解和语音合成等核心技术。想要J9九游国际通过这些技术实现人和机器之间更自然的对话,面临两点技术挑战:
一是个体语言体系的差异化。由于所处地域、文化、教育背景的不同,每个人的语言表达都是独特的,这种个性化在人与人之间的沟通中都难免出现理解偏差,更何况是一台机器。对于AI而言,中文不是一种语言,而是13亿种语言。
二是对话式口语常常会有语序颠倒、犹豫、迟疑产生的停顿。在复杂的多人交互场景中,也不可避免会出现语句打断、抢话、交叠音等问题,这些语音特征为 AI 建模带来了很大困难。
真实的对话数据和多语种语料库建设是解决上述问题的关键,为机器注入知识图谱、中文、方言、外语等多种语料,才能让机器像人一样理解自然语言。
1、语音识别技术和数据
语音识别,主要是将人类语音中的词汇等内容转换为计算机可读的输入,这是计算机学习人类语言的第一步,上述提及到的千人千面的个性化表达以及对话口语颠倒、犹豫、迟疑等,这些被输入的“内容”对于机器来说都是非常重要的学习要素。
2、语音合成技术和数据
语音合成,主要是将计算机产生的文字(自己的或者外部输入的)转变为人类可以听得懂的、流利的汉语口语的输出。人类在语言表达的时候总是附带着语气与感情,语音合成的音频是为了模仿真实的人声,所以需要对文本进行韵律预测,什么地方需要停顿,停顿多久,哪个字或者词语需要重读,哪个词需要轻读等,实现声音的高低曲折,抑扬顿挫。
3、自然语言理解技术和数据集
自然语言理解,主要是计算机J9九游国际通过对输入数据的理解和分析,让人类与机器能够用自然语言进行有效地通讯交流,不仅让机器能够“听懂人话”,更能让机器“讲人话”。
更多数据集样例可在MagicData官网进行查看:/datasets
希望未来虚拟人不仅可以和人交流,还可以千人千面,能够真的和“我”一样,有一样的动作习惯,有常用的表情,有熟悉的语气等等。在人机交互过程中,机器要想感知人的情感色彩,光靠声音是不够的,更多信息传递蕴含在面部表情或语言内容中,情绪感知是一个多模态综合评价的结果。而这些,需要定制化对每个个体进行多模态的数据采集和刻画。
多模态数据处理系统Annotator?5.0,为虚拟数字人的构建提供了最基础最重要的多维度数据支撑。在Annotator?5.0底层结构上,借助了大量AI技术,J9九游国际通过对数据的预处理,捕获基础刻画能力,再J9九游国际通过人工后期精细化加工的方式,进一步优化特征,从而最大程度保证了对每个个体的刻画能力。
pc端试用链接:/
数据是人工智能的基础建设,不论元宇宙还是虚拟数字人,一切有关人工智能的构建都离不开数据,合理有效的使用数据,才能让机器更好地理解人类,让人类更好地探索未知。