世界最大的多语言语音数据集现已开源,超万小时,共种语言澎湃号·湃客澎湃新闻

量子位 报道 | 公众号 QbitAI

最近,Facebook开源了目前世界上最大的多语言语音数据集,VoxPopuli:

这一数据集共涵盖了23种语言,时长超过40万小时。

其中,每种语言都有9000到18000小时的无标签语音数据。

此外,还包括了共1800小时,16种语言的转录语音数据,以及17300小时,15种目标语言的口译语音数据。

国外网友很快为这一行为点赞:

显然,如果数据集已经存在,那么它应该被利用,并以一种道德的方式来改善人类社会。

这一数据集庞大的无标签数据量和广泛的语言覆盖率,对改进自监督模型有着很大的帮助。

而Facebook也希望能够帮助提高语音数据集的质量和鲁棒性,使训练语音转换神经网络更加可靠。

最终加速新的NLP系统的开发,使AI翻译的效果越来越好。

即源语音全都收集自2009-2020年欧洲议会的活动录音。

来自10年欧会的语料库

在欧洲议会的各自活动,如全体会议、委员会会议和其他活动上,发言者都会以不同的欧盟语言轮流发表演讲。

然后,将所有的原始演讲数据进行处理,大致分为以下3类:

共40万小时,23种语言的无标签语音数据

每种语言都有8千到2万多的原始语音数据。

因此,Facebook基于能量的语音激活检测(VAD)算法,将完整音频分割成15-30秒的短片段。

最终得到没有太多的数据不平衡,也不需要调整数据采样策略的数据集。

因此非常适合多语言模型的训练。

而上表中除了无标签数据,也有转录的语音数据,这也就是第二种:

共1800小时,16种语言的转录语音数据

所以Facebook对全会话音频采用了声纹分割聚类(SD)。

这时的语音段落平均时长为197秒,再利用语音识别(ASR)系统,将其细分为20秒左右的短片段。

17300小时的15种目标语言的口译语音数据:

但要使这个数据集可用,必须经过大量的预处理和过滤。

因此,Facebook使用了语音识别(ASR)系统在句子层面上对齐源语音和目标语音。

在域外环境的半监督学习下具有通用性

那么这一数据集用起来到底怎么样?

首先,是使用包含了域外语言(out-of-domain out-of-language)的无监督预训练,进行少样本的语音识别:

可以从表中看到,VP-Mono5K在5种VoxPopuli语言上,都优于XLSR-Mono和XLSR-10。

而VP-100K则在10种语言中的8种上的都比XLSR-10的表现更好。

并且,虽然XLSR-53涵盖了Zh语言,但与VP-100K(Large)在Zh上的表现相距甚远。

这表明VP-100K所学的语音表征具有高度的通用性。

然后是使用VoxPopuli数据集进行自我训练或弱监督的语言翻译(ST)和语音识别(ASR):

从表中可以看到,不管是对于域内语言还是域外语言,对VoxPopuli的自我训练在大多数时候都能够提高性能。

而在翻译上,也不用再增加昂贵的标签数据。

通过自我训练,就能够缩小端到端模型和级联模型之间的差距。

论文地址:

下载:

参考链接:

— 完 —

原标题:《世界最大的多语言语音数据集现已开源!超40万小时,共23种语言》

THE END
0.计算机网络与操作系统基础知识概览系统软件:操作系统(OS)、数据库管理系统、语言处理程序 常见的数据库管理系统: MySQL、SQLserver、Oracle、DB2、Access 2.程序设计语言 高级语言分成两大类,面向过程:C语言 面向对象:Java,c#,C++,VF等。 世界上第一门高级语言:FORTRAN。 计算机唯一能够直接识别并运行的语言只有机器语言,因此,需要将高级语言或者是汇jvzquC41dnuh0lxfp0tfv8vsa6844=5:81gsvrhng1jfvjnnu1733;:62;>
1.仿写句子(初中)(共3篇)一般说来,要根据提供的语言材料,从形式(结构、修辞、句式、字数)和内容两大方面入手进行仿写。例如:仿照例句,在横线上再造一个句子。 金钱能买来书籍,但买不来知识;金钱能买来药品,但买不来健康;解题分析: 首先从整体上看,例句的结构是:金钱能买来,但买不来;金钱能买来,但买不来;这一步是做仿写题的关键jvzquC41o0ui3950eqs0c87238681=;9;2>:3?9;20nuou
2.幼儿园大班语言教案《月亮》含反思(精选13篇)幼儿园大班语言教案《月亮》含反思 篇5 活动目标: 1、知道故事的主要情节,了解我国有世界上最大的海洋、最高的山、最长的城墙、最大的广场。 2、领略蒲公英所见的祖国秀丽山河,激发爱家乡、爱祖国的热情。 3、细致观察和较完整表述能力。 4、借助图文并茂,以图为主的形式,培养孩子仔细阅读的习惯,激发阅读兴趣。jvzq<84yyy4vpsx0eqs0lrfqcp5rk}f142822;5633845Bd526772:3jvor
3.现代以来世界美学演进的两大转折与体系构建的三个基本点——张法世界现代性以来美学演进的两大转折 世界美学上升到轴心时代,中国、印度、地中海地区在各自的文化圈内主导了美学的演进。地中海文化复杂一点,先有希腊—波斯之争到亚历山大建立的希腊化世界,继而有罗马和迦太基之争到罗马帝国的建立。在天主教的西方圈、东正教的东方圈和伊斯兰教的东方圈各文化之间虽有互动,但未影响本文的 jvzquC41yy}/fxzdcp4dqv4pqvk0:?548:=268
4.校准航向再出发——新华社五论中美关系如何重返正轨作为两个世界大国,中美能否确立正确相处之道,攸关世界和平发展和人类前途命运。一段时间以来,两国关系的变化牵动世界人心,其跌宕起伏的曲折历程,一方面表明了中美关系的严峻性和复杂性,确立大国正确相处之道并非易事,其间会受到各种因素的影响扰动;另一方面,双方最终排除干扰达成“重返巴厘岛”“面向旧金山”的重要共识jvzquC41fy~dd€qi|d4ty~3gfw4dp8nphq522;9162=30qyo
5.中信建投:未来人形机器人全球规模可达数万亿级别随着各项人工智能技术的不断发展,具备与物理世界交互的强大潜力的智能机器人成为学界和业界的重要研究赛道。其中Google依托其在AI领域强大的研究团队,丰厚的多领域研究成果,引领着近年来机器人模型的发展。Google Deepmind在2023年6月和7月发布了其最新研究成果,具备“自我完善”能力的“RoboCat”和融合大语言模型能力的VLjvzquC41hktbplj0gcyuoxsg{0ipo8sgyu525>5.42843;664;93:<:;984ivvq