音频数据集
1 多语言
Mozilla Common Voice
下载地址:https://voice.mozilla.org/data
时长:1965小时(目前为止)
最早2017年发布,持续更新,该基金会表示,通过 Common Voice 网站和移动应用,他们正在积极开展 70 种语言的数据收集工作。
Mozilla 宣称其拥有可供使用的最大的人类语音数据集,当前数据集有包括 29 种不同的语言,其中包括汉语,从 4万多名贡献者那里收集了近 2454 小时(其中1965小时已验证)的录音语音数据。并且做出了开放的承诺:向初创公司、研究人员以及对语音技术感兴趣的任何人公开我们收集到的高质量语音数据。
Common Voice数据集不仅在其大小和许可模型(https://github.com/JRMeyer/open-speech-corpora)方面是独一无二的,而且在其多样性上也是独一无二的。它是一个由语音贡献者组成的全球社区。贡献者可以选择提供诸如他们的年龄、性别和口音等统计元数据,这样他们的语音片段就会被标记上在训练语音引擎中有用的信息。这是一种不同于其他可公开获取的数据集的方法,这些数据集要么是手工制作的多样性数据集(即男性和女性数量相等),要么是语料库与“已发现”的数据集一样的多样性数据集(例如,TED演讲中的TEDLIUM语料库是男性和女性的3倍)。
翻译和口语音频的大型数据库Tatoeba
链接下载地址:https://tatoeba.org/eng/downloads
项目始于2006年tatoeba是一个用于语言学习的句子、翻译和口语音频的大型数据库。收集面向外语学习者的例句的网站,用户无须注册便可以搜索任何单词的例句。如果例句含有对应的真人发音,也可以点击收听。注册用户可以添加、翻译、接管、改进、讨论句子。还可以在留言板上和其他注册用户讨论。在留言板上,所有的语言都是平等的,注册用户可以使用自己喜欢的语言与其他用户交流。
CMU Wilderness Multilingual Speech Dataset
2 英语
VOiCES Dataset
下载地址:https://voices18.github.io/downloads/
文献:https://arxiv.org/abs/1804.05053
发布时间:2018年
时长:总共15小时(3903个音频文件)
参与人数:300人
这个数据集是在复杂的环境中采集的。在不同大小的真实房间中录音,捕捉每个房间的不同背景声音和混响。其中也包含了各种类型的干扰噪声(电视,音乐,或潺潺声)。在房间内精心布置的12个麦克风在远处录制音频,每个麦克风产生120小时的音频。为了模仿谈话中的人类行为,前景说话人使用电动装置,在记录期间旋转一系列角度。
300个不同的说话人从LibriSpeech的“干净”的数据子集被选择作为源音频,确保女男性别比例均衡。
本语料库的目的是促进声学研究,包括但不限于:
说话人识别,语音识别,说话人检测。
事件和背景分类,语音/非语音。
源分离和定位,降噪。
其中音频包含:
男女声阅读的英语。
模拟的头部运动:使用电动旋转平台上的说话人来模拟前景旋转。
杂散噪声包含大量的电视、音乐、噪音。
包括大、中、小多个房间的各种混响。
语料库包含源音频、重传音频、正字法转录和说话人标签,有转录和模拟记录的真实世界的噪音。该语料库的最终目标是通过提供对复杂声学数据的访问来推进声学研究。语料库将以开源的形式发布,免费供商业、学术和政府使用。
LibriSpeech
链接(内含镜像)地址:http://www.openslr.org/12/
发布时间:2015年
大小:60GB
时长:1000小时
采样:16Hz
LibriSpeech该数据集为包含文本和语音的有声读物数据集,由Vassil Panayotov编写的大约1000小时的16kHz读取英语演讲的语料库。数据来源于LibriVox项目的阅读有声读物,并经过细致的细分和一致。经过切割和整理成每条10秒左右的、经过文本标注的音频文件,非常适合入门使用。
推荐应用方向:自然语音理解和分析挖掘
2000 HUB5 English:
链接地址:https://catalog.ldc.upenn.edu/LDC2002T43
发布时间:2002年
该数据集由NIST(国家标准与技术研究院)2000年发起的HUB5评估中使用的40个英语电话对话的成绩单组成,其仅包含英语的语音数据集。HUB5评估系列集中在电话上的会话语音,将会话语音转录成文本的特定任务。其目标是探索会话语音识别的新领域,开发融合这些思想的先进技术,并测量新技术的性能。
此版本包含评估中用到的40个源语音数据文件的.txt格式的脚本,即20个未发布的电话交谈,是招募的志愿者根据机器人操作员的每日主题进行对话,和20个来自CALLHOME美国英语演讲中的母语交流者之间的对话。
推荐应用方向:音乐、人声、车辆、乐器、室内等自然和人物声音识别
VoxForge:
下载地址:http://www.voxforge.org/home/downloads
带口音的清晰英语语音数据集。适用于提升不同口音或语调鲁棒性的场景。VoxForge创建的初衷是为免费和开源的语音识别引擎收集标注录音(在Linux/Unix,Windows以及Mac平台上)
以GPL协议开放所有提交的录音文件,并且制作声学模型。以供开源语音识别引擎使用,如CMUSphinx,ISIP,Julias(github)和HTK(注意:HTK有分发限制)。
推荐应用方向:语音识别
人类语音的大规模视听数据集 (VoxCeleb)
VoxCeleb是一个大型人声识别数据集。它包含来自 YouTube 视频的 1251 位名人的约 10 万段语音。数据基本上是性别平衡的(男性占 55%)。这些名人有不同的口音、职业和年龄。开发集和测试集之间没有重叠。
该数据集有2个子集:VoxCeleb1和VoxCeleb2
VoxCeleb1
VoxCeleb1包含超过10万个针对1,251个名人的话语,这些话语是从上传到YouTube的视频短片中提取的。
发音人数:1251
视频数量:21245
音频数量:145265
下载地址:http://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox1.html
VoxCeleb2
说话人深度识别数据集 VoxCeleb2包含超过100万个6,112个名人的话语,从上传到YouTube的视频中提取,VoxCeleb2已经与VoxCeleb1或SITW数据集没有重叠的说话人身份。
发音人数量:训练集:5994,测试集:118
视频数量:训练集:145569,测试集:4911
音频数量:训练集:1092009,测试集:36237
内容时长:2000小时以上
发布时间:2018年
下载地址:http://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox2.html
音频全部采自YouTube,是从网上视频切除出对应的音轨,再根据说话人进行切分;
属于完全真实的英文语音;
数据集是文本无关的;
说话人范围广泛,具有多样的种族,口音,职业和年龄;
每句平均时长8.2s,最大时长145s,最短时长4s,短语音较多;
每人平均持有句子116句,最大持有250句,最小持有45句;
数据集男女性别较均衡,男性有690人(55%),女性有561人;
采样率16kHz,16bit,单声道,PCM-WAV音频格式;
语音带有一定真实噪声,非人造白噪声,噪声出现时间点无规律,人声有大有小;
噪声包括:环境突发噪声、背景人声、笑声、回声、室内噪音、录音设备噪音;
视频场景包括:明星红地毯、名人讲台演讲、真人节目访谈、大型体育场解说;
音频无静音段,但不是VAD的效果,而是截取了一个人的完整无静音音频片段;
数据集自身以划分了开发集Dev和测试集Test,可直接用于Speaker Verification(V)
参考:https://www.zhihu.com/question/265820133/answer/356203615
TIMIT:英语语音识别数据集
发布时间:1993年
采样:16kHz 16bit
参与人数:630人
下载地址:https://catalog.ldc.upenn.edu/LDC93S1
TIMIT(英语:The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus),是由德州仪器、麻省理工学院和斯坦福研究院SRI International合作构建的声学-音素连续语音语料库。TIMIT数据集的语音采样频率为16kHz,一共包含6300个句子,由来自美国八个主要方言地区的630个人每人说出给定的10个句子,所有的句子都在音素级别(phone level)上进行了手动分割、标记。TIMIT语料库包括时间对齐的正字法,语音和单词转录以及每个话语的16位,16kHz语音波形文件。
在给定的10个句子,包括:
2个方言句子(SA, dialect sentences),对于每个人这2个方言句子都是相同的;
5个音素紧凑句子(SX, phonetically compact sentences),这5个是从MIT所给的450
个音素分布平衡的句子中选出,目的是为了尽可能的包含所有的音素对。
3个音素发散句子(SI, phonetically diverse sentences),这3个是由TI从已有的
Brown 语料库(the Brown Coupus)和剧作家对话集(the Playwrights Dialog)中随机选择的,目的是为了增加句子类型和音素文本的多样性,使之尽可能的包括所有的音位变体(allophonic contexts)。
TIMIT官方文档建议按照7:3的比例将数据集划分为训练集(70%)和测试集(30%) ,TIMIT的原始录音是基于61个音素的
由于在实际中61个音素考虑的情况太多,因而在训练时有些研究者整合为48个音素,当评估模型时,李开复在他的成名作(Lee & Hon, 1989)所提出的将61个音素合并为39个音素方法被广为使用。
推荐应用方向:语音识别
70%的说话人是男性;大多数说话者是成年白人。
TIMIT语料库多年来已经成为语音识别社区的一个标准数据库,在今天仍被广为使用。其原因主要有两个方面:
数据集中的每一个句子都在音素级别上进行了手动标记,同时提供了说话人的编号,性别,方言种类等多种信息;
数据集相对来说比较小,可以在较短的时间内完成整个实验;同时又足以展现系统的性能。
目录组织形式如下:
/////.
语料库:timit
用法:train | test
方言种类:dr1 | dr2 | dr3 | dr4 | dr5 | dr6 | dr7 | dr8
性别:m | f
说话者ID:
句子ID:,其中,文本类型:sa | si | sx
文件类型:wav | txt | wrd | phn
举例:
(1) /timit/train/dr1/fcjf0/sa1.wav
(2) /timit/test/df5/mbpm0/sx407.phn
https://blog.csdn.net/qfire/article/details/78711673
CHIME:
链接地址:http://spandh.dcs.shef.ac.uk/chime_challenge/CHiME5/
包含环境噪音的用于语音识别挑战赛(CHiME Speech Separation and Recognition Challenge)数据集。数据集包含真实、仿真和干净的录音。真实录音由 4 个speaker在 4 个嘈杂位置的近 9000 段录音构成,仿真录音由多个语音环境和清晰的无噪声录音结合而成。该数据集包含了训练集、验证集、测试集三部分,每份里面包括了多个speaker在不同噪音环境下的数据。
推荐应用方向:语音识别
双麦克风录制的立体WAV文件包括左右声道,而阵列麦克风的录音被分解为每个单声通道的WAV文件。
转录以JSON格式提供。
TED-LIUM:
采样:16Hz
时长:118小时
TED-LIUM 语料库由音频讲座及其转录本组成,可在 TED 网站上查阅。
下载地址:http://www.openslr.org/resources/7/TEDLIUM_release1.tar.gz
国内镜像:http://cn-mirror.openslr.org/resources/7/TEDLIUM_release1.tar.gz
TED-LIUM 2
通道:1
采样:16Hz 16bit
比特率:256k
TED Talk 的音频数据集,包含1495个录音和音频会议、159848条发音词典和部分WMT12公开的语料库以及这些录音的文字转录。
下载:http://www.openslr.org/resources/19/TEDLIUM_release2.tar.gz
国内镜像:http://cn-mirror.openslr.org/resources/19/TEDLIUM_release2.tar.gz
TED-LIUM 3
通道:1
采样:16Hz 16bit
比特率:256k
新的TED-LIUM版本是由Ubiqus公司与LIUM(法国勒芒大学)合作制作的。包含2351条录音与对齐脚本,452小时的音频,159848条发音词典,从 WMT12 公开可用的 Corpora 中选择语言建模的单语言数据:这些文件来自 TED-LIUM 2 版本,但已修改以获得与英语更相关的标记化
下载:http://www.openslr.org/resources/51/TEDLIUM_release-3.tgz
国内镜像:http://cn-mirror.openslr.org/resources/51/TEDLIUM_release-3.tgz
Google AudioSet
AudioSet是谷歌17年开放的大规模的音频数据集。该数据集包含了 632 类的音频类别以及 2084320 条人工标记的每段 10 秒长度的声音剪辑片段(包括 527 个标签,片段来自YouTube视频)。音频本体 (ontology) 被确定为事件类别的一张层级图,覆盖大范围的人类与动物声音、乐器与音乐流派声音、日常的环境声音。此项研究论文已发表于IEEE ICASSP 2017 会议上。
AudioSet提供了两种格式:
csv文件,包括音频所在的YouTube视频的ID,开始时间,结束时间 以及标签(可能是多标签)
128维的特征,采样率为1Hz,也就是把音频按秒提取为128维特征。特征是使用VGGish模型来提取的,VGGish下载地址为https://github.com/tensorflow/models/tree/master/research/audioset 可以使用该模型提取我们自己的数据。VGGish也是用来提取YouTube-8M的。这些数据被存储为.tfrecord格式。
链接下载地址:https://github.com/audioset/ontology
参考:
https://baijiahao.baidu.com/s?id=1561283095072201&wfr=spider&for=pc
https://blog.csdn.net/qq_39437746/article/details/80793476(含国内镜像链接)
https://cloud.tencent.com/developer/article/1451556
CCPE数据集
发布时间:2019年
CCPE 全称为 Coached Conversational Preference Elicitation,它是我们提出的一种在对话中获得用户偏好的新方法,即它允许收集自然但结构化的会话偏好。通过研究一个领域的对话,我们对人们如何描述电影偏好进行了简要的定量分析;并且向社区发布了 CCPE-M 数据集,该数据集中有超过 500 个电影偏好对话,表达了 10,000 多个偏好。具体而言,它由 502 个对话框组成的数据集,在用户和助理之间用自然语言讨论电影首选项时有 12,000 个带注释的发音。它通过两个付费人群工作者之间的对话收集,其中一个工作人员扮演「助手」的角色,而另一个工作人员扮演「用户」的角色。「助手」按照 CCPE 方法引出关于电影的「用户」偏好。助理提出的问题旨在尽量减少「用户」用来尽可能多地传达他或她的偏好的术语中的偏见,并以自然语言获得这些偏好。每个对话框都使用实体提及、关于实体表达的首选项、提供的实体描述以及实体的其他语句进行注释。
在面向电影的 CCPE 数据集中,冒充用户的个人对着麦克风讲话,并且音频直接播放给冒充数字助理的人。「助手」则输出他们的响应,然后通过文本到语音向用户播放。这些双人自然对话包括在使用合成对话难以复制的双方之间自发发生的不流畅和错误。这创建了一系列关于人们电影偏好的自然且有条理的对话。在对这个数据集的观察中,我们发现人们描述他们的偏好的方式非常丰富。该数据集是第一个大规模表征该丰富度的数据集。我们还发现,偏好也称为选项的特征,并不总是与智能助理的方式相匹配,或者与推荐网站的方式相匹配。换言之,你最喜爱的电影网站或服务上的过滤器,可能与你在寻求个人推荐时描述各种电影时使用的语言并不匹配。
有关 CCPE 数据集的详细信息,参阅具体研究论文https://ai.google/research/pubs/pub48414,该论文将在 2019 年话语与对话特别兴趣小组(https://www.aclweb.org/portal/content/sigdial-2019-annual-meeting-special-interest-group-discourse-and-dialogue-call-special)年会上发布。
2)链接下载相关:https://storage.googleapis.com/dialog-data-corpus/CCPE-M-2019/data.json
Free ST American English Corpus
参与人数:10人
该数据集源自(www.Surfay.ai)的一个自由的美式英语语料库,包含十个发言者的话语,每个说话者有350个左右的词句。该语料库是在室内环境下用手机录制的,每个词句都由专人仔细抄写与核对,保证转录的准确性。
链接下载地址:http://www.openslr.org/45/
国内镜像:http://cn-mirror.openslr.org/resources/45/ST-AEDS-20180100_1-OS.tgz
CSTR VCTK
参与人数:109人
这个数据集包括109个以英语为母语、带有不同口音的英语使用者说出的语音数据。每位发言者宣读约400句词句,其中大部分来自报纸,加上rainbow passage和旨在识别说话者口音的引语段落。报纸文章取自《先驱报》(格拉斯哥),并经《先驱报》和《时代》集团许可。每位演讲者阅读一组不同的报纸句子,其中每组句子都是使用贪婪算法选择的,该算法旨在最大化上下文和语音覆盖。rainbow passage和引语段落对所有发言者都是一样的。
彩虹通道可以在英语档案国际方言中找到:http://web.ku.edu/~idea/readings/rainbow.htm
引出段落与用于语音重音存档 http://accent.gmu.edu的段落相同。语音重音存档的详细信息可查看http://www.ualberta.ca/~aacl2009/PDFs/WeinbergerKunath2009AACL.pdf
See more: http://homepages.inf.ed.ac.uk/jyamagis/page3/page58/page58.html
下载:https://datashare.is.ed.ac.uk/handle/10283/2651
LibriTTS corpus
采样:24Hz
时长:585小时
LibriTTS 是一种多语言英语语种,以 24kHz 采样率阅读英语语音约 585 小时,由 Heiga Zen 在 Google 语音和 Google 大脑团队成员的协助下编写。LibriTTS 语料库专为 TTS 研究而设计。它派生自LibriSpeech语料库的原始材料(来自LibriVox的MP3音频文件和古腾堡项目的文本文件)。
以下是 LibriSpeech 语料库的主要区别:
音频文件的采样速率为 24kHz。
演讲在句子中断时被分割。
包含原始文本和规范化文本。
可以提取上下文信息(例如相邻的句子)。
排除了具有显著背景噪声的透口。
链接(镜像)http://www.openslr.org/60/
The AMI Corpus
这是最初托管在http://groups.inf.ed.ac.uk/ami/corpus/上的 AMI Corpus 声学数据的镜像。AMI 会议会议记录包含 100 小时的会议录音。录像使用与公共时间线同步的信号范围。其中包括近距离麦克风和远场麦克风、独立和房间视图摄像机,以及从幻灯机和电子白板输出。在会议期间,与会者还可以使用不同步的笔来记录所写内容。会议以英语录制,使用三个不同的房间,具有不同的声学属性,并且包括大多数非母语人士。
下载:http://www.openslr.org/16/
中文
Free ST Chinese Mandarin Corpus
参与者:855人
这个语料库是用手机在室内安静的环境中录制的。它有855个speakers。每个演讲者有120个话语。所有的话语都经过人仔细的转录和核对。保证转录精度
语料库包含: 1音频文件; 2转录; 3元数据;
链接下载:(8.2G)http://www.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz
国内镜像:http://cn-mirror.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz
Primewords Chinese Corpus Set 1
参与人数:296人
时长:178小时
这个免费的中文普通话语料库由上海普力信息技术有限公司发布。(www.primewords.cn)包含178个小时的数据。该语料由296名以中文为母语的人的智能手机录制。转录精度大于 98%,置信度为 95%。免费用于学术用途。转述和词句之间的映射以 JSON 格式提供。
链接下载:(9.0G)http://www.openslr.org/resources/47/primewords_md_2018_set1.tar.gz
国内镜像:http://cn-mirror.openslr.org/resources/47/primewords_md_2018_set1.tar.gz
THCHS30
时长:40+小时
THCHS30是一个经典的中文语音数据集,包含了1万余条语音文件,通过单个碳粒麦克风录取,大约40小时的中文语音数据,内容以文章诗句为主,全部为女声。它是由清华大学语音与语言技术中心(CSLT)出版的开放式中文语音数据库。原创录音于2002年由朱晓燕教授在清华大学计算机科学系智能与系统重点实验室监督下进行,原名“TCMSD”,代表“清华连续”普通话语音数据库’。13年后的出版由王东博士发起,并得到了朱晓燕教授的支持。他们希望为语音识别领域的新入门的研究人员提供玩具级别的数据库,因此,数据库对学术用户完全免费。
链接国内镜像:https://link.ailemon.me/?target=http://cn-mirror.openslr.org/resources/18/data_thchs30.tgz
国外镜像:https://link.ailemon.me/?target=http://www.openslr.org/resources/18/data_thchs30.tgz
ST-CMDS
时长:100余小时
参与人数:855人
ST-CMDS是由一个AI数据公司发布的中文语音数据集,包含10万余条语音文件,大约100余小时的语音数据。数据内容以平时的网上语音聊天和智能语音控制语句为主,855个不同说话者,同时有男声和女声,适合多种场景下使用。
国内镜像:https://link.ailemon.me/?target=http://cn-mirror.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz
国外镜像:https://link.ailemon.me/?target=http://www.openslr.org/resources/38/ST-CMDS-20170001_1-OS.tar.gz
MAGICDATA Mandarin Chinese Read Speech Corpus
时长:755小时
参与人数:1080人
应用:语音识别,机器翻译,说话人识别和其他语音相关领域
Magic Data技术有限公司的语料库,语料库包含755小时的语音数据,其主要是移动终端的录音数据。邀请来自中国不同重点区域的1080名演讲者参与录制。句子转录准确率高于98%。录音在安静的室内环境中进行。数据库分为训练集,验证集和测试集,比例为51:1:2。如语音数据编码和说话者信息的细节信息被保存在metadata文件中。录音文本领域多样化,包括互动问答,音乐搜索,SNS信息,家庭指挥和控制等。还提供了分段的成绩单。该语料库旨在支持语音识别,机器翻译,说话人识别和其他语音相关领域的研究人员。因此,语料库完全免费用于学术用途。
下载地址见参考:https://blog.ailemon.me/2018/11/21/free-open-source-chinese-speech-datasets/
镜像:http://www.openslr.org/68/
AISHELL数据集
AISHELL开源版1
时长:178小时
参与人数:400人
采样:44.1kHz & 16kHz 16bit
AISHELL是由北京希尔公司发布的一个中文语音数据集,其中包含约178小时的开源版数据。该数据集包含400个来自中国不同地区、具有不同的口音的人的声音。录音是在安静的室内环境中同时使用3种不同设备: 高保真麦克风(44.1kHz,16-bit);Android系统手机(16kHz,16-bit);iOS系统手机(16kHz,16-bit)。进行录音,并采样降至16kHz,用于制作AISHELL-ASR0009-OS1。通过专业的语音注释和严格的质量检查,手动转录准确率达到95%以上。该数据免费供学术使用。他们希望为语音识别领域的新研究人员提供适量的数据。
链接下载地址:http://www.aishelltech.com/kysjcp
AISHELL-2 开源中文语音数据库
时长:1000小时
参与人数:1991人
希尔贝壳中文普通话语音数据库AISHELL-2的语音时长为1000小时,其中718小时来自AISHELL-ASR0009-[ZH-CN],282小时来自AISHELL-ASR0010-[ZH-CN]。录音文本涉及唤醒词、语音控制词、智能家居、无人驾驶、工业生产等12个领域。录制过程在安静室内环境中, 同时使用3种不同设备: 高保真麦克风(44.1kHz,16bit);Android系统手机(16kHz,16bit);iOS系统手机(16kHz,16bit)。AISHELL-2采用iOS系统手机录制的语音数据。1991名来自中国不同口音区域的发言人参与录制。经过专业语音校对人员转写标注,并通过严格质量检验,此数据库文本正确率在96%以上。(支持学术研究,未经允许禁止商用。)
链接下载地址:http://www.aishelltech.com/aishell_2
AISHELL-3 语音合成数据库
时长:85小时
参与人数:218人
采样率:44.1kHz,16bit
希尔贝壳中文普通话语音数据库AISHELL-3的语音时长为85小时88035句,可做为多说话人合成系统。录制过程在安静室内环境中, 使用高保真麦克风(44.1kHz,16bit)。218名来自中国不同口音区域的发言人参与录制。专业语音校对人员进行拼音和韵律标注,并通过严格质量检验,此数据库音字确率在98%以上。(支持学术研究,未经允许禁止商用。)
详见:AISHELL-3高保真中文语音数据集
MobvoiHotwords
MobvoiHotwords是从Mobvoi的商业智能扬声器收集的唤醒单词的语料库。它由关键字和非关键字语音组成。对于关键字数据,将收集包含“ Hi xiaowen”或“ Nihao Wenwen”的关键字语音。对于每个关键字,大约有36k语音。所有关键字数据均收集自788名年龄在3-65岁之间的受试者,这些受试者与智能扬声器的距离(1、3和5米)不同。在采集过程中,具有不同声压级的不同噪声(例如音乐和电视等典型的家庭环境噪声)会在后台播放。
国内镜像|国外镜像
其他
GigaSpeech:东南亚语种
kespeech:开源方言数据集
完成融合aidatatang、aidatashell、commonvoice、wenetspeech800w中文数据集的fmt3
Sound Event Classification:FSD50K、DCASE2017 Task4、UrbanSound8K
Vocal Sound Classification:vocalsound(可做年龄、性别、健康状态等识别任务)
Acoustic Scene Classification:TUT 2017、CochlScene
Emotion Recognition:CREMA-D、RAVDESS