多语种终身学习的语音识别方法
1.本发明涉及多语种终身学习的语音识别方法,属于计算机与信息科学技术领域。
背景技术:
2.随着人工智能技术的不断发展,语音识别技术逐渐成为信息技术中人机交互的关键技术,它的出现使得机器能够听懂人类的语言从而实现人机的语言交流。近年来,深度学习的迅猛发展使得一系列相关算法在语音识别方面取得了较好的效果。
3.现有的多语种语音识别方法,通常使用方法可归为两类:
4.1.基于声学-语言模型的方法
5.基于声学-语言模型的方法主要使用高斯混合模型(gmm)、深度神经网络(dnn)和隐马尔可夫模型(hmm)进行语音识别。声学模型一般使用深度网络进行训练,得到语音特征到音素的映射,语言模型构建词与词、词与句子的映射,把字词解码成完整的句子。其中,基于深度网络-隐马尔可夫模型(dnn-hmm)的语音识别方法是目前的常用方法,这一类方法使用深度网络对隐马尔可夫的观测概率进行建模,同时基于加权有限状态转换器(wfst)把语音词典、声学模型和语言模型编译成静态的解码网络。在面对多个语种的语音识别任务时,需要对不同的语种构建独立的语音词典、声学模型和语言模型,其构建过程复杂,整个模型的训练过程较为繁琐。
6.2.端到端的语音识别方法
7.端到端的语音识别方法主要使用seq2seq、transformer等方法进行端到端的语音识别。和基于声学-语言模型的语音识别方法相比,端到端的模型训练过程相对简单,应用更加便捷。近年来,端到端的语音识别方法发展迅猛,从连接时序分类(ctc)到循环神经网络变换器(rnn-t),再到基于注意力机制的编解码器(例如transformer等),端到端的语音识别模型获得了更好的识别效果。在面对多语种的语音识别任务时,由于模型能够端到端同时训练多个语种的语音识别任务,使其对于不同语种的语音具有较好的识别效果。然而,现有端到端多语种语音识别方法主要采用离线训练的方式,在进行新语种学习时,会对旧语种的知识产生灾难性遗忘,导致模型面对旧语种的识别性能下降。
8.综上所述,基于声学-语言模型的多语种语音识别方法需要对不同的语种建立独立的语音词典、声学模型和语言模型,构建过程复杂;而端到端的多语种识别方法虽然训练过程相对简单,应用更加便捷,但会对旧语种的知识产生灾难性遗忘,难以对模型进行在线更新。本发明提出了多语种终身学习的语音识别方法。
技术实现要素:
9.本发明的目的是针对现有方法未考虑语音识别模型在线更新时的灾难性遗忘,使其在学习新语种时对旧语种语音识别性能下降的问题,提出了一种多语种终身学习的语音识别方法。
10.本发明的设计原理为:首先,结合连续时序分类(ctc)和transformer算法对单一
语种的语音训练ctc-transformer语音识别模型;其次,当有新语种识别任务加入时,衡量该语种和已识别语种的相似度;然后,使用基于相似度的正交权重修正算法(s-owm)对模型的参数更新方向进行修正;最后,使用新语种训练ctc-transformer模型,得到多语种语音识别模型,实现多语种的语音识别。
11.本发明的技术方案是通过如下步骤实现的:
12.步骤1,使用ctc-transformer模型进行单一语种的语音识别训练,当有新语种输入时,执行步骤2~3,使用终身学习实现多语种的语音识别。
13.步骤2,输入新语种语音数据,更新模型参数。
14.步骤2.1,使用kl散度计算新语种与已训练语种的相似度。
15.步骤2.2,使用基于相似度的正交权重修正算法(s-owm),确定模型参数更新的方向。
16.步骤3,使用ctc-transformer模型按照步骤2中的参数更新方法对新语种进行训练,得到多语种语音识别模型。
17.步骤4,输入多语种的语音数据,输出对应的识别文本。
18.有益效果
19.相比于使用单一语种训练后微调至多语种的语音识别模型,本发明通过匹配相似语种,使用基于相似度的正交权重修正算法(s-owm)控制模型的参数更新方向,在提升新语种训练速度的同时,更好地保留旧语种的识别效果。
20.相比于使用多语种同时训练的语音识别模型,本发明可以在保证旧语种识别能力的同时,在线学习新语种并更新模型。进一步提升了模型的实用性和便捷性。
附图说明
21.图1为本发明多语种终身学习的语音识别方法。
22.图2为基于相似度的正交权重修正算法(s-owm)原理图。
具体实施方式
23.为了更好的说明本发明的目的和优点,下面结合实例对本发明方法的实施方式做进一步详细说明。
24.实验数据集为多语种的语音识别数据集:euronews,将训练集和测试集按照4:1的比例切分。
25.表1多语种语音识别实验数据
[0026][0027]
实验采用词错率(word error rate,wer)评价多语种语音识别的结果,wer的计算方法为:
[0028][0029]
其中,s表示替换的词汇数目,i表示插入的词汇数目,d表示删除的词汇数目,n为正确识别的词汇总数。
[0030]
本次实验的具体流程为:
[0031]
步骤1,使用ctc-transformer模型进行单一语种的语音识别训练,当有新语种输入时,执行步骤2~3,使用终身学习实现多语种的语音识别。
[0032]
步骤1.1,对输入的语音进行卷积和位置编码,生成对应的特征序列。
[0033]
步骤1.2,使用自注意力机制的编解码器对序列进行编解码。编码器(sae)包含自注意力层和位置前馈层;解码器(sad)包含自注意力层、编解码注意力层和位置前馈层。自注意力层中的多头注意力为:
[0034]
mha(q,k,v)=[h1,h2,
…
,hh]wo[0035][0036]
其中,q,k,v分别表示输入的查询、键和值,hi为第i层的输出,h为注意力的数目,w为训练参数。
[0037]
步骤1.3,使用连续时序分类(ctc)进行辅助训练。ctc接收编码器的输入x
enc
,并计算x
enc
和y之间任意对齐π的概率p
ctc
(y|x
enc
):
[0038]
c=softmax(x
encwctc
+b
ctc
)
[0039][0040]
其中,w
ctc
和b
ctc
为ctc的训练参数,π[t]是与x
enc
中第t帧对齐的字符id,c(t,π[t])是输出字符π[t]与x
enc
中第t帧对齐的概率。
[0041]
步骤1.4,输出模型预测值并进行训练。模型输出的预测值为:
[0042]
[0043]
其中,p
e2e
(y|x
enc
)为编解码器的输出,p
ctc
(y|x
enc
)为ctc的输出。模型的损失函数为:
[0044]
l(x,y;ω)=c
·
l
ctc
(x,y;ω)+(1-c)
·
l
dec
(x,y;ω),
[0045]
其中,l(x,y;ω),l
ctc
(x,y;ω)和l
dec
(x,y;ω)分别为总体损失、ctc损失和解码器损失。
[0046]
步骤2,输入新语种语音数据,更新模型参数。
[0047]
步骤2.1,使用kl散度计算新语种与已训练语种的相似度。相似度的计算方法为:
[0048]
步骤2.2,根据相似度数值修正owm正交化权值更新方法,确定模型参数更新的方向。根据梯度下降,参数的更新方式为:
[0049][0050]
其中,为δwn在ω
n-1
(原参数空间)上的映射;为δwn在(与原参数正交空间)上的映射:
[0051][0052][0053]
m是原参数空间上的映射算子,m
ort
是正交空间上的映射算子:
[0054][0055][0056]
p
sim
为基于相似度的权重修正项:
[0057]
p
sim
=α0i+α1m
k1
+α2m
k2
+...+αmm
km
,
[0058]mk1
,m
k2
,
…
,m
km
为m个相似度大于0.5的语种在对应参数空间上的映射算子:
[0059][0060]
α是根据相似度大小计算而得的相对权重,其中:∑α=1。
[0061]
步骤3,使用ctc-transformer模型按照步骤2中的参数更新方法对新语种进行训练,得到多语种语音识别模型。
[0062]
步骤4,输入多语种的语音数据,输出对应的识别文本。
[0063]
测试结果:实验使用多语种终身学习的语音识别方法,对euronews中的10个语种的语料进行了语音识别,并取得了较好的实验结果。和现有的多语种识别方法相比,基于s-owm算法的多语种终身学习方法显著提升了模型对于多个语种的识别性能,降低了模型在线更新过程中对于旧语种知识的遗忘性,可以对持续输入的多语种语音数据流进行连续学习,在不影响旧语种识别能力的同时,在线学习新语种并更新模型。
[0064]
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
技术特征:
1.多语种终身学习的语音识别方法,其特征在于所述方法包括如下步骤:步骤1,使用ctc-transformer模型进行单一语种的语音识别训练,当有新语种输入时,执行步骤2~3,使用终身学习实现多语种的语音识别;步骤2,输入新语种语音数据,对模型的参数更新方式进行修正,首先,使用kl散度计算新语种与已训练语种的相似度,然后,使用基于相似度的正交权重修正算法(s-owm),确定参数更新方向;步骤3,使用ctc-transformer模型按照步骤2中的参数更新方法对新语种进行训练,得到多语种语音识别模型;步骤4,输入不同语种的语音,生成对应的识别文本。2.根据权利要求1所述的多语种终身学习的语音识别方法,其特征在于:步骤2中,参数的更新可以分为三部分:其中,为δw
n
在ω
n-1
(原参数空间)上的映射;为δw
n
在(与原参数正交空间)上的映射;m是原参数空间上的映射算子,m
ort
是正交空间上的映射算子;p
sim
为基于相似度的权重修正项。3.根据权利要求1所述的多语种终身学习的语音识别方法,其特征在于:步骤2中,在对新语种进行训练时,在参数更新时,添加基于相似度的权重修正项:p
sim
=α0i+α1m
k1
+α2m
k2
+...+α
m
m
km
,其中,m
k1
,m
k2
,
…
,m
km
为m个相似度大于0.5的语种在对应参数空间上的映射算子:α是根据相似度大小计算而得的相对权重,其中:∑α=1。
技术总结
本发明涉及多语种终身学习的语音识别方法,属于计算机与信息科学技术领域。本发明首先结合连续时序分类和Transformer算法对单一语种的语音训练语音识别模型;其次,当有新语种识别任务加入时,衡量该语种和已识别语种的相似度;然后,使用基于相似度的正交权重修正算法对模型的梯度下降方向进行修正;最后,使用新语种训练多语种语音识别模型,实现多语种的语音识别。本发明能够在保证已学习语种识别能力的同时,在线学习新语种并更新模型,加快了新语种的学习速度,提升了模型对于多个语种的识别性能。的识别性能。的识别性能。
