语音识别模型训练方法及语音识别方法与流程|葡萄牙语语音规律强化训练_葡萄牙语

本发明涉及语音识别技术领域，尤其涉及一种语音识别模型训练方法及语音识别方法。

背景技术：

自动语音识别(asr)是人机交互的入口，在研究界和行业界都引起了极大的关注。然而，训练最先进的语音识别系统通常需要成百上千小时的转录语音。尽管世界上有超过6000种语言，但其中大多数都遭受标注数据不足的困扰。对于许多语言，只有少数带标注的数据可用。

为了解决资源短缺情况下的数据稀疏性问题，对于多语言asr或多语言预训练，现有技术只需将来自不同语言的数据或根据多项分布的发声样本进行组合，以减轻数据不平衡。但是他们没有考虑语言之间的关系和相关性。

技术实现要素：

本发明实施例提供一种语音识别模型训练方法及语音识别方法，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种语音识别模型训练方法，包括：

采用多语言样本集对语音识别模型进行预训练得到初始语音识别模型，所述多语言样本集中包括目标语言样本集；

采用预先训练得到的语言分类器确定目标语言的后验概率；

根据所述后验概率在基于所述多语言样本集进行训练过程中进行数据加权；

至少根据数据加权结果训练所述初始语音识别模型；

采用所述目标语言样本集对训练后的初始语音识别模型进行调整。

第二方面，本发明实施例提供一种语音识别方法，其特征在于，包括：

接收待识别语料，所述待识别语料为目标语料；

采用本发明所述的语音识别模型训练方法训练得到的语音识别模型对所述目标语料进行识别处理。

第三方面，本发明实施例提供一种存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项语音识别方法。

第四方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明上述任一项语音识别方法。

第五方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项语音识别方法。

本发明为了利用目标语言和源语言之间的相似性进行asr训练，采用目标语言的后验概率对多语言样本集中的样本进行加权处理，从而在多语言数据集中找到与目标语言更相似的数据，以实现更好的适应性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的语音识别模型训练方法的一实施例的流程图；

图2为本发明的语音识别模型训练方法的另一实施例的流程图；

图3为本发明的语音识别模型训练方法的另一实施例的流程图；

图4为本发明的语音识别模型训练方法的另一实施例的流程图；

图5为本发明的语音识别模型训练方法的另一实施例的流程图；

图6为本发明中的数据加权方法一实施例的示意图；

图7为本发明中的长度扰动方法一实施例的示意图；

图8为本发明的电子设备的一实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

如图1所示，本发明的实施例提供一种语音识别模型训练方法，包括：

s10、采用多语言样本集对语音识别模型进行预训练得到初始语音识别模型，所述多语言样本集中包括目标语言样本集。

示例性地，初始语音识别模型可以为端到端自动语音识别(asr)模型。目标语言样本集为低资源语言，多语言样本集中的其它语言样本为丰富资源语言。

s20、采用预先训练得到的语言分类器确定目标语言的后验概率。

示例性地，采用语言分类器对目标语言的语料进行处理得到相应的后验概率。例如，将目标语言的所有语句分别输入至语言分类器得到每个语句的后验概率。

s30、根据所述后验概率在基于所述多语言样本集进行训练过程中进行数据加权。

s40、至少根据数据加权结果训练所述初始语音识别模型。

示例性地，本实施例中的数据加权结果包括将语句输入至语言分类器之后得到的后验概率与多语言样本集中样本语句的乘积。

s50、采用所述目标语言样本集对训练后的初始语音识别模型进行调整。

本发明为了利用目标语言和源语言(多语言样本集中除去目标语言之外的语言)之间的相似性进行asr训练，采用目标语言的后验概率对多语言样本集中的样本进行加权处理，从而在多语言数据集(多语言样本集)中找到与目标语言更相似的数据，以实现更好的适应性。在语句级别上获得语言之间相似性的直接方法是训练语言分类器。从模型的角度来看，来自分类器的目标语言的后验可以视为语言相似度，然后在多语言预训练中将其用作每个语句的权重。

发明人在实现本发明的过程中发现，在直接采用后验概率进行数据加权处理时会导致不稳定的训练梯度，从而导致了较差的语音识别性能。为此本发明中通过对后验概率进行预处理得到权重值来对数据进行加权处理。

在一些实施例中，根据所述后验概率在基于所述多语言样本集进行训练过程中进行数据加权，包括：

对后验概率做如下预处理得到权重值：

其中pi表示批次中第i个样本的目标语言的后验，n表示批次的大小；

采用得到的权重值在多语言样本集中的语句进行加权处理。

如图2所示，在本发明的语音识别模型训练方法的一实施例中，还包括：

s01、对所述多语言样本集中的语料进行对齐处理；

s02、根据对齐处理结果确定所述语料中的每个词在语料中的位置和边界；

s03、根据所述位置和边界对所述语料进行数据增广；示例性地，根据所述位置和边界对所述语料进行长度扰动处理。

在一些实施例中，所述至少根据数据加权结果训练所述初始语音识别模型，包括：根据数据加权结果和数据增广结果训练所述初始化语音识别模型。

如图3所示，在本发明的语音识别模型训练方法的一实施例中，所述根据数据加权结果和数据增广结果训练所述初始化语音识别模型，包括：

s41、确定数据加权结果和数据增广结果所对应的新的多语言样本集；

s42、从所述新的多语言样本集中获取第i子部分样本对所述初始化语音识别模型进行第i轮训练；

s43、当第i轮训练后得到收敛的语音识别模型时结束训练，否则从所述新的多语言样本集中获取第i+1子部分样本继续进行第i+1轮训练。

示例性地，随着训练过程的推进，渐进地从所述新的多语言样本集中获取第i+1子部分样本继续进行训练；所述新的多语言样本集中的语料按照预设排序策略组织，所述第i子部分样本相比于所述第i+1子部分样本简单。

在一些实施例中，从所述新的多语言样本集中获取第i+1子部分样本继续进行第i+1轮训练，包括：对多语言样本集中的样本按照难易程度进行重新排序；从重新排序后的多语言样本集中获取第i+1子部分样本继续进行第i+1轮训练。

本实施例中训练样本的顺序是动态确定的，而不是静态顺序。从而使得在进行语音识别模型的训练中始终都是从相对简单的样本中学到先验知识来有效地探索较难的样本。

在一些实施例中，采用所述目标语言样本集对训练后的初始语音识别模型进行调整，包括：采用所述目标语言样本集对收敛的语音识别模型进行调整。

如图4所示，为本发明的语音识别方法的一实施例的流程图，在该实施例中，语音识别方法，包括：

s001、接收待识别语料，所述待识别语料为目标语料；

s002、采用本发明前述任一项实施例所述的语音识别模型训练方法训练得到的语音识别模型对所述目标语料进行识别处理。

如图5所示，在本发明的语音识别模型训练方法的一实施例中，包括：

1.使用传统语音识别模型对语料进行对齐。

2.基于对齐得到每个词汇在语音中的位置和边界。

3.基于以上位置和边界，可进行长度扰动的数据增广。基本概念可见图7，在一段音频和对应文本上，取出一部分子序列作为新的训练样本。

4.进行数据加权，具体流程可见图6：先利用预先训练好的语言分类器得到目标语言的概率后验，然后基于这一概率后验作为权重在训练过程中进行数据加权。

5.将加权和增广后的数据集按当前训练轮数和排序策略取最简单的部分进行训练。

6.训练一轮后判断是否收敛，如果未收敛，对整个数据集计算排序指标(如损失函数值的变化率)，然后基于指标进行排序，回到5.已收敛则得到最终模型。

7.除了数据加权外，其他过程都兼容多语种预训练和目标语种的精调。

在一些实施例中，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明中所述语音识别方法的步骤。

在一些实施例中，本发明实施例还提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明中所述语音识别方法的步骤。

在一些实施例中，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项语音识别方法。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作合并，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

为更加清楚的介绍本发明的技术方案，也为更直接地证明本发明的可实时性以及相对于现有技术的有益性，以下将对本发明的技术背景、技术方案以及所进行的实验等进行更为详细的介绍。

摘要：近期语音识别取得了巨大的进展。然而，现有的建模策略在遇到仅有少量训练数据的低资源语言时性能会有巨大的下降。在本发明中，提出一系列方法来优化低资源语音识别下的数据使用。多语言语音识别在低资源数据场景下能有很多帮助。并且我们的工作挖掘了多语言预训练中语言之间的相关性和相似性。利用语言分类器输出目标语言的概率后验来进行数据加权，这帮助模型在预训练时就更加偏向目标语言。此外，基于动态课程学习的数据调度以及基于长度扰动的数据增广也被提出。以上三种方案构成了低资源语种优化数据使用的新策略。我们使用五种语言进行预训练，并在目标语言上使用有限数据进行微调来评估我们的方法。初步实验发现我们提出的数据使用方法相对原版的多语言预训练+单语言精调有20％的词错误率降低。

1、介绍

自动语音识别(asr)是人机交互的入口，在研究界和行业界都引起了极大的关注。然而，训练最先进的语音识别系统通常需要成百上千小时的转录语音。尽管世界上有超过6000种语言，但其中大多数都遭受注释数据不足的困扰。对于许多语言，只有少数带注释的数据可用。

为了解决资源短缺情况下的数据稀疏性问题，一种常用的方法是利用在丰富资源语言上训练的模型中的知识。lrspeech采用基于文本到语音(tts)的数据增强和双重转换，以实现低资源自动语音识别。嘈杂的学生反复训练会从语言模型和未标记的语音中提取知识。最近，wav2vec2.0利用对比学习进行完全无监督的训练，仅用10分钟的带标注数据就可以训练具有可用性能的asr模型。多语言端到端asr模型避免了传统混合系统需要对所有语言进行不同拼写建模的难题。

现有方法主要集中在不同的训练范式和未标记数据的利用上。另一方面，对现有数据的加权，调度和训练策略也是重要的方面。

对于多语言asr或多语言预训练，现有技术只是将来自不同语言的数据简单组合或根据多项分布进行采样，以减轻数据不平衡问题。但是他们没有考虑语言之间的关系和相关性。在本发明中，我们利用语言之间的相似性来更好地适应低资源asr。此外，在资源不足的情况下，课程学习和数据扩充也是重要的方面。具体来说，为了提高低资源语音识别的性能，我们提出了以下新的数据使用方法：

1.基于语言相似性的数据加权。

2.基于不同指标的动态课程学习。

3.除了现有的语速扰动和谱增强方法外，还用于数据扩充的长度扰动。

实验结果表明，我们的方法的集成优于多语言预训练+单语言精调的方式，并且字错误率降低了20％。

2、用于低资源asr的多语言预训练和微调

2.1、基于转换器的端到端asr

转换器(transformer)是由编码器和解码器网络构成的序列到序列(s2s)网络。每个模块都包含一个多头自注意(mhsa)和几个全连接层。在连接主义时序分类(ctc)/注意力框架下训练该模型，以提高鲁棒性并实现快速收敛。用lctc和ls2s表示ctc和s2s目标，联合ctc注意网络的损失函数定义为：

可调系数λ∈[0，1]用于控制每个损失的贡献。采用联合ctc/注意解码来预测输出序列，在此将具有ctc前缀分数的s2s分数组合在一起得出最终解码结果。

2.2、多语言预训练和微调

多语言预训练已广泛用于低资源语音识别。考虑到已经有大量来自丰富资源语言的配对数据，因此首先对几种语言进行了端到端asr模型的预训练。由于人类语言中语音和语法的相似性，因此该预训练模型可以很好地学习通用语音和语言知识。由于大型模型通常具有更强的功能，因此足够的数据量使我们能够避免在使用大型模型时过度拟合。在使用丰富资源语言对端到端asr模型进行预训练之后，使用低资源语言对端到端asr模型进行微调。我们使用来自丰富资源和低资源语言的子词单元的并集。这样，可以通过预训练的参数将不同语言之间的一些常识转换为低资源语音识别。

3、针对低资源语音识别的优化数据使用

为了提高低资源语音识别的性能，提出了基于语言相似性的数据加权，基于动态课程学习的数据分配以及基于长度扰动的数据增强。

3.1、通过语言相似性加权数据

多语言预训练只是将来自不同语言的数据进行组合。根据多项分布对话进行采样，以进行多语言训练，从而避免数据不平衡。

但是，这些方法无法利用语言之间的相关性和相似性。如表1所示，对于“pronunciation”一词，加泰罗尼亚语(catalan)和法语(french)的拼写和发音相似，而巴斯克语(basque)则完全不同。请注意，并非词汇表中的所有单词都具有这样的属性，并且不同语言的语法也有所不同。在本发明中，我们考虑了语句级别的相似性。另外，当将一些不相关的语言添加到预训练语言中时，模型的性能会变差。这种现象表明，语言之间的相关性极大地影响了自适应的有效性。

表1：来自不同语言的单词“pronunciation”比较示例。

为了利用目标语言和源语言之间的相似性进行asr训练，提出了一种数据加权方法。使用语言相似性的目的是在多语言数据集(多语言样本集)中找到与目标语言更相似的数据，以实现更好的适应性。在语句级别上获得语言之间相似性的直接方法是训练语言分类器。从模型的角度来看，来自分类器的目标语言的后验可以视为语言相似度，然后在多语言预训练中将其用作每个语句的权重。

但是，这种加权方案导致了不稳定的训练梯度，从而在我们的初步实验中导致了较差的性能。例如，由于权重的存在，在极端情况下，两批计算得出的梯度可能相差一个数量级。因此，对于每个批次的样本及权重后验，我们通过如下的softmax函数转换权重，以使梯度范数接近之前的范数。

其中pi表示批次中第i个样本的目标语言的后验，n表示批次的大小。此外，在构建批处理时，我们将语言相似性差异较大的样本放在一起，使差异在训练中更清晰地体现出来。权重仅乘以原始asr损失即可。

其中，n表示批次的大小，l(i)jca表示第i个语句的联合ctc/注意asr损失。基于softmax，我们可以使梯度范数保持接近原始值，但根据语言权重选择不同的样本。

3.2、动态课程学习

优化数据使用的另一种方法是训练期间的动态数据调度。课程学习(curriculumlearning，cl)最早是在相关现有技术中引入的。课程学习的动机在于，神经网络可以利用从较简单的样本中学到的先验知识来有效地探索较难的样本。因此，在训练阶段将样本从简单到难进行重新排序。

受现有技术的启发，我们提出了一种针对低资源asr的动态课程学习方法。训练样本的顺序是动态确定的，而不是静态顺序。此外，还要考虑模型的能力：无论模型有多强大，都需要对模型进行逐步训练，而不是一次获取所有样本。

3.2.1、样本难度

对于训练样本，较低的损失意味着asr模型可以更好地识别它。因此，一种简单的方法是将每个样本的损失用作难度的度量。为此，我们在每个训练阶段之后使用固定模型来计算所有训练样本的损失。

其中s(x,θt)是样本x在t时期的得分，θt表示t时期的模型参数。在这里，一个时期可以是固定数量的周期。此外，注意力输出的精度a(x,θt)可以是用于测量样本的难度的候选者。

由于模型是在训练阶段进行更新的，因此在一些周期之后，样本的损失可能会迅速减少。损失较小的样本可能很难在训练中进行改进。因此，我们也可以将课程学习得分定义为相邻时期之间同一样本上的损失变化率。基于下降的样本难度的度量为：

而且，精度的增加率可以是动态课程学习的难度度量。使用此指标，得分较低的样本表明模型可以更快地学习它们。因此，他们更有可能在下一阶段更好地学习。

3.2.2、逐步学习

由于该模型在早期训练阶段的能力较弱，因此只能从最简单的训练样本中学习良好，然后逐渐学会处理整个训练集。因此，在训练过程中，我们逐渐增加训练样本的数量以覆盖整个训练集。每个时期中训练数据的比率计算如下：

其中t表示第t个时期，a0表示用于训练的数据的初始比率，β是数据增量的因数，t表示时期的总数。然后对于t时期，选择最简单的样本前a(t)*|dtrain|部分来训练模型，其中|dtrain|表示训练集的总大小。得益于渐进式训练，渐进更新的模型可以学习适当困难的样本。

3.3、长度扰动

语速扰动是一种有效且常用的数据增强方法。通过不同的因素对音频进行重新采样，并创建数据的多个其他副本。在这里，我们提出了一种新的数据增强策略，称为长度扰动。

与将一小段语音特征(通常是一帧或几个拼接帧)分类的传统混合声学模型不同，当前的端到端模型将整个语音序列视为一个整体。此外，由于asr任务的单调性，因此存在与一段语义上分割的语音相对应的有效文本序列。因此，根据这种属性，我们可以利用语音子序列中的知识来进一步提高性能，尤其是在我们没有太多数据的情况下。

图7显示了子序列的示例。我们首先训练一个传统asr系统，以获取每句话的单词边界。然后，我们可以根据单词边界将发声切成子序列。对于序列到序列模型，该模型仅学习整个句子的对应关系。但是对于asr任务，某些子序列之间的映射也是可用的。当有大量数据时可以隐式学习到这种关系，但是在资源不足的情况下这非常困难。

如图7所示，我们基于单词边界对语音和文本进行切片。然后，我们基于给定因子k(0<k<1)扩充数据，其中k是控制相对于原始序列的新序列的长度的因子。

4、实验

4.1、数据

commonvoicedataset是阅读志愿者收集的多语言语料库。我们考虑了五种语言，包括法语(fr)，意大利语(it)，巴斯克语(eu)，葡萄牙语(pt)和加泰罗尼亚语(ca)，其中加泰罗尼亚语是目标语言。对于传统方法而言，这五种语言汇集在一起进行多语种的预训练，然后使用加泰罗尼亚语进行微调。我们使用commonvoice的2020年6月(v5.1)版本。我们采用来自前四种语言(fr，it，eu和pt)的总共730小时的完整训练集和加泰罗尼亚语(ca)训练集的10小时子集进行预训练。并且采用相同的加泰罗尼亚子集进行微调。我们根据加泰罗尼亚语开发和测试集的官方评估结果评估模型。

4.2、asr基准

模型的输入是一个80维对数梅尔滤波器组，每10ms计算出25ms的窗口长度，并具有3维的音高特征。谱增强是针对频谱特征进行的。基线实现来自espnet。我们采用带有12个编码器层和6个解码器层(具有2048个隐藏单元)的transformer。每一层都是一个带有8个头的64维度自关注层的转换器块。每个块的dropout设置为0.1。对于联合ctc-注意力优化中的多任务学习(mtl)，ctc的权重和注意力损失分别设置为0.3和0.7。建模单元是从多语言训练集中训练的500字节对编码(bpe)单元。

如第2节所述，我们首先在五种语言的组合上对模型进行预训练，直到收敛为止。然后，我们直接转换目标加泰罗尼亚语asr模型的所有参数，并且仅使用目标语言加泰罗尼亚语中的数据进行微调。表2中报告了基准性能。“dev”和“test”分别表示开发集和测试集的字错误率(wer)。

表2：数据加权的wer(％)比较

4.3、通过语言相似性加权数据

4.3.1、语言分类器

为了获得目标语言(ca)与其他语言(fr，it，eu，pt)之间的语句级语言相似性，对语言分类器进行了训练，以从每个语句中获取加泰罗尼亚语的后验。我们采用相关现有技术中的延时神经网络(tdnn)结构，并将隐藏单元调整为256，以避免过度拟合。模型的输入遵循第4.2节中asr模型的设置。训练分类器以识别正在说的语句所用的语言。

4.3.2、加权方法的评估

在预训练期间，我们使用语言后验作为样本权重，然后根据目标语言对模型进行微调。

为了稳定和加速训练，将预训练的基线模型用作初始化。对于语言分类器，我们采用了不同数量的训练数据来训练语言分类器，然后将这些分类器的后验用作样本权重。表2显示了使用来自不同语言分类器的后验数据加权方法的结果。“lid1h”表示语言分类器总共接受了五种语言的一小时数据训练。“lidacc”在开发集的50个小时中进行评估，lidacc全程为languageidentificationaccuracy，语种识别精度，是语种分类器的性能指标。

在表2中，无论分类器的类型如何，建议的方法始终优于基线。从分类器中提取的后验数据达到50小时后，可获得最佳结果。相比之下，lid400h的改进有限，我们的猜测是强大的分类器将对大多数数据更有把握地输出概率，并且我们会错过很多有价值的数据以进行调整。同时，语言分类器的性能不应太差，以至于不能利用目标语言的有用数据。

4.4、动态课程学习

在所有实验中，我们在等式6中设置α0＝0.2，β0＝1.5。在这里，t时期对应于五个周期。在每个时期之后，我们首先推断整个训练集以获得损失或准确性，然后根据等式5和6重新组织训练集。

表3：课程学习方法的wer(％)比较

如表3所示，“cl_loss”是指损失的偏差被认为是训练样本的难易程度，类似于“cl_acc”，即注意力头准确性的提高。对于序列到序列的任务，简单的想法是将较短的语句视为更容易的样本。deepspeech2提出了一种名为sortagrad的静态课程学习策略，该策略将较短的语音视为更简单的样本。我们还基于espnet的实现对sortagrad进行了实验。对于前10％的时间段，我们从最短到最长提供数据。根据不同方法的结果，可以发现sortagrad不能很好地工作，因为它是一种静态的课程学习方法，并且在训练过程中会失去随机性。与基线和sortagrad方法相比，这两种提议的动态课程学习方法(基于损失或基于准确性)都可以实现更好的性能。

4.5、长度扰动

长度扰动需要训练样本的会话时间标记(ctm)输出，以按单词边界对它们进行分段。我们遵循kaldi中的commonvoice流程来构建混合asr模型并获取每种语言训练集的ctm输出。chain模型是具有768个隐藏尺寸的8层时延神经网络(tdnn)。模型的输入由40维的梅尔倒谱(mfcc)和每10ms计算的25ms窗口长度以及100维的用于说话人自适应的i矢量组成。建模单元仍然使用子词而非音素是因为我们无法确保获得每种语言的发音词典。

本发明用几种不同的因素扰动训练数据。新创建的训练数据副本的话语长度分别为0.33、0.66和1.00。选择这些因子是因为当添加更多的副本(例如因子0.2)时，没有观察到进一步的改善。我们首先从每个句子的随机词开始，然后切出一部分文本。之后，采用sox根据ctm输出将音频剪辑为新样本。我们在多语言的预训练和微调阶段都扰动数据。

比较结果在表4的第三行中说明。长度扰动与正常语速扰动一起应用。可以看出，通常的语速扰动确实提高了低资源asr的系统性能，并且新提出的长度摄动可以进一步获得较大的增益，并且可以与语音扰动一起应用。

表4：综合方法的wer(％)结果

4.6、最终整合数据使用策略的评估我们评估并探索了所提出方法的整合，包括数据权重，动态课程学习和长度扰动，结果如表4所示。

最后三行显示了我们的数据使用方法集成的结果。可以发现，方法是相互补充的。与基准pt+ft相比，我们结合语速扰动的集成策略可将wer降低20％。即使与带语速扰动的基线比较，我们的集成策略也可以将wer降低15％。

5、结论

在本文中，我们提出了三种方法来优化低资源语音识别的数据使用率。我们使用语言相似性进行数据加权，使用动态课程学习进行数据分配，并使用长度扰动进行数据增强。我们的初步实验结果表明了它们在低资源asr建模中的潜力。在将来的工作中，我们的方法可以并入其他框架中，例如用于低资源语音识别的半监督学习和完全无监督学习。

图8是本申请另一实施例提供的执行语音识别方法的电子设备的硬件结构示意图，如图8所示，该设备包括：

一个或多个处理器810以及存储器820，图8中以一个处理器810为例。

执行语音识别方法的设备还可以包括：输入装置830和输出装置840。

处理器810、存储器820、输入装置830和输出装置840可以通过总线或者其他方式连接，图8中以通过总线连接为例。

存储器820作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的语音识别方法对应的程序指令/模块。处理器810通过运行存储在存储器820中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例语音识别方法。

存储器820可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音识别装置的使用所创建的数据等。此外，存储器820可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器820可选包括相对于处理器810远程设置的存储器，这些远程存储器可以通过网络连接至语音识别装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置830可接收输入的数字或字符信息，以及产生与语音识别装置的用户设置以及功能控制有关的信号。输出装置840可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器820中，当被所述一个或者多个处理器810执行时，执行上述任意方法实施例中的语音识别方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iphone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等，例如ipad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如ipod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

THE END

语音识别模型训练方法及语音识别方法与流程

aila团队发布突破性语音识别技术：让机器听懂语音的全新方式翻译信号编码器语音助手

语音识别模型训练方法及语音识别方法与流程

淘宝的“秘密战争”