开源 | MagicData-RAMC :180小时中文对话式语音数据集正式发布
发布时间 : 2022-04-15 阅读量 : 2564
为了进一步丰富开源语音语料库,促进语音语言处理技术的发展,联合中科院声学研究所、上海交通大学和西北工业大学,在Magichub开源社区正式开源180小时中文对话式语音数据集MagicData-RAMC。MagicData-RAMC是一批高质量且标注丰富的训练数据,可以很好地支持开发者完成语音识别和说话人日志相关的研究。
数据集下载地址 https://magichub.com/datasets/magicdata-ramc/
论文地址 https://arxiv.org/abs/2203.16844
基线地址 https://github.com/MagicHub-io/MagicData-RAMC-Challenge
同时,(北京J9九游国际科技有限公司)联合中科院声学研究所、上海交通大学和西北工业大学基于MagicData-RAMC完成了语音识别、说话人日志和关键词检索的相关研究,该工作已投稿语音领域顶级会议Interspeech 2022。
【数据简介】
MagicData-RAMC包括351组多轮普通话对话,时长共计180小时。每组对话的标注信息包括转录文本、语音活动时间戳、说话人信息、录制信息和话题信息。说话人信息包括了性别、年龄和地域,录制信息包括了环境和设备。
【数据收集】
MagicData-RAMC数据均于室内采集。声学环境为不足20平米的房间,混响时间(RT60)小于0.4秒。环境噪音水平低于40dB(A),录制过程中环境相对安静。所有录制的参与者都是以中文为母语的流利普通话使用者,他们的口音略有不同。
音频由开发的手机应用程序录制,录制使用的手机均是主流的智能手机,其中安卓和IOS系统的使用比例约1:1。音频文件为16比特采样点,采样率为16KHz,录音质量比同类型的对话语音语料库(如HKUST/MTS、SwitchBoard、Fisher)更高。
转录文本由人工标注并由专业检验员校对。MagicData-RAMC标注信息非常丰富,在语音内容转写结果的基础上,还标注了非语言信息,包括笑声、音乐声、噪声等。口语对话中常见的犹豫、重复等语言不流畅的现象也被标注出来。对话中每个说话人的起始时间戳也被标注出来,可以用于说话人日志相关的研究。
【数据分布】
性别和地域分布均衡:为了尽可能地反应真实世界中的对话场景,MagicData-RAMC在收集过程中保证了性别和地域的均衡性,以及话题的多样性。MagicData-RAMC中共计663为说话人,其中男性368人、女性295人,来自北方334人、南方329人。性别、地域和省份分布的饼状图1、图2、图3所示。
话题丰富多样:在每一组多轮对话,两位说话人仅围绕一个主题开展自然对话,平均时长30分钟。说话人灵活地回应对方,而非死板地问答。因此,每组对话的主题是连贯的,历史的对话与当前的内容密切相关,非常适合用于研究对话式的语音识别任务[6]。MagicData-RAMC涵盖了15类话题,话题的多样性以及对话中话题的一致性适合研究开放领域的口语对话任务。MagicData-RAMC话题分布饼状图如图4所示。
【基线系统】
以中科院声学研究所为首的研究团队基于MagicData-RAMC数据集完成了语音识别、关键词检索和说话人日志的相关研究。官方将MagicData-RAMC数据集划分为150小时的训练集、10小时的开发集和20小时的测试集。下面简要介绍基线系统。
语音识别:在语音识别任务中,他们使用开源工具ESPnet[1]训练Conformer[2]模型,训练数据包括755小时MagicData-READ和150小时MagicData-RAMC。其中MagicData-READ可以从开源社区OpenSLR获取。开发集、测试集的字错误率(Character Error Rate, CER)分别为16.5%和19.1%。
关键词检索:在关键词检索任务中,他们基于Comformer模型和动态时间对齐算法[3],检索200个关键词。关键词随MagicData-RAMC数据集一同公布。开发集的关键词准确率和召回率分别为86.98%和89.57%;测试集的关键词准确率和召回率分别为85.87%和88.79%。
说话人日志:在说话人日志任务中,他们主要使用了开源工具Kaldi[4]搭建说话人日志系统,系统包括说话人活动性检测模块、说话人特征提取模块和贝叶斯隐马尔可夫聚类模块[5]。开发集、测试集的日志错误率(Diarization Error Rate, DER)分别为5.57%和7.96% (collar 0.25)。
【排行榜】
2021年7月至10月,、中科院声学研究所和江苏师范大学主办了“对话式AI语音识别及说话人识别挑战赛”。为了帮助参赛者快速、高质量地完成模型开发和训练,主办方提供了基础脚本和基线模型,提供给参赛者使用。基线地址:https://github.com/MagicHub-io/Magic-Data-ASR-SD-Challenge
比赛过程中发布的训练集和开发集与MagicData-RAMC中的训练集和开发集一致。比赛分为两个赛道——“对话场景下的语音识别(Automatic Speech Recognition, ASR)准确率”和“对话场景下的说话人识别(Speaker Diarization, SD)准确率”。
现在发布的MagicData-RAMC进一步公开了比赛使用的测试数据。当时ASR赛道前5名参赛队伍的CER公布如下:
SD赛道前5名参赛队伍的DER公布如下:
4月18日,我们将在Magichub开源社区继续开放此数据集的测评比赛,敬请关注!更多详情请见:https://magichub.com/
目前,Magichub.com开源社区共开源超过100个数据集,数据类型涵盖ASR、TTS、NLP、发音词典等,开源数据语言包括中文、英语、德语、意大利语、阿拉伯语等众多语种。未来,更多语种和类型数据集将持续在社区开源,欢迎大家下载使用。