本文作者:kaifamei

一种基于交互性时频注意力机制的单通道语音增强方法

更新时间:2025-12-27 13:45:41 0条评论

一种基于交互性时频注意力机制的单通道语音增强方法


transformer:aframeworkformodelingcomplex-valuedsequence.”in:icassp2020-2020ieeeinternationalconferenceonacoustics,speechandsignalprocessing(icassp).ieee,2020,pp.4232

4236


技术实现要素:



8.基于现有技术存在模型复杂度高,语音增强效果有限的问题,本发明提供一种基于交互性时频注意力机制的单通道语音增强方法,在增强效果和上比一般的语音增强神经网络有明显的优势,能够解决平稳或非平稳噪声干扰下的语音降噪问题。
9.本发明的目的是通过以下技术方案实现的:一种基于交互性时频注意力机制的单通道语音增强方法,包括:
10.步骤1:将带噪语音信号进行短时傅里叶变换stft,得到带噪语音信号频谱中每一帧的实部和虚部,输入作为编码器的复数形式的深度卷积神经网络中,得到经过深度卷积神经网络特征压缩后的特征图;
11.步骤2:将步骤1得到的深度卷积神经网络进行特征压缩后的特征图分别输入到时域复数变换模块、频域复数变换模块和改进的复数形式的通道注意力模块中;时域复数变换模块和频域复数变换模块并行学习时域和频域的信息;在时域复数变换模块和频域复数变换模块之间引入交互模块,交互模块对时域注意力和频域注意力输出的特征图起到互补作用,交互模块对时域注意力的输出添加额外的频域信息,为频域注意力添加额外的时域信息;时域复数变换模块和频域复数变换模块分别学习到时域特征图和频域特征图在时域和频域上的相关性,该相关性捕获时域长期上下文之间的关系与频域子带之间的跨频带关系;再将交互模块的输出进行加权,得到输出后的特征图;改进的复数形式的通道注意力模块利用一维卷积层与池化层在通道维度的加权信息对深度卷积神经网络中的每一层的特征图进行加权,最终得到深度卷积神经网络中每一层加权后的特征图;
12.步骤3:将步骤2的输出的特征图输入到解码器的复数形式的深度反卷积神经网络中,深度反卷积神经网络与深度卷积神经网络利用步骤2中改进的复数形式通道注意力模块相连,构成编码器-解码器结构,得到复理想比率掩码cirm,并利用复理想比率掩码cirm重构增强之后的语音信号的频谱,对增强之后的语音信号的频谱再经过短时傅里叶反变换得到增强后的语音信号。
13.进一步,所述步骤1中,短时傅里叶变换stft包括:
14.对带噪语音进行降采样,使得所有音频信号的采样率均为16khz,经过帧长为400,帧移为200,窗函数选择汉宁窗的短时傅里叶变换后,得到带噪语音信号频谱中每一帧的实部和虚部,如下所示:
15.y(t,f)=s(t,f)+n(t,f)(1)
16.式中,
17.y=yr+jyi18.s=sr+jsi19.其中,y(t,f)表示经过短时傅里叶变换后的单通道待增强语音频谱,t表示时间维度,f表示频率维度;s(t,f)和n(t,f)代表干净语音和背景噪声,y和s表示y(t,f)和s(t,f)的频谱,下标r和i分别代表频谱的实部和虚部,短时傅里叶变换点数为512,变换后的257维
对应着频率范围从0到8000hz。
20.进一步,所述步骤1中,复数形式的深度卷积神经网络包括:
21.作为对带噪语音频谱进行特征提取的编码器,编码器中由有六个卷积块堆叠而成,每一个卷积块均由一个复数形式的卷积层、复数形式的层归一化层以及复数形式的带参relu激活函数组成;复数形式的卷积层是由四个卷积层按照复数乘法的运算规则进行模拟得到,设复数形式的滤波器矩阵w=wr+jwi,复数形式的输入向量x=xr+jxi,其中,wr和wi是实数张量滤波器矩阵,xr和xi是实数输入张量,实值部分用来模拟复数运算,则复数卷积运算的输出表示为:
22.f
out
=(xr*w
r-xi*wi)+j(xr*wi+xi*wr)(2)
23.式中,f
out
是复数形式卷积层的输出;同理,也有复数形式的gru层和复数形式的全连接层,输出f
gru
与f
linear
分别为:
24.f
gru
=(f
rr-f
ii
)+j(f
ri
+f
ir
)
25.f
rr
=grur(xr)f
ir
=grur(xi)
26.f
ri
=grui(xr)f
ii
=grui(xi)(3)
27.f
linear
=(f
rr-f
ii
)+j(f
ri
+f
ir
)
28.frr=linwarr(xr)f
ir
=linwarr(xi)
29.f
ri
=lineari(xr)f
ii
=lineari(xi)(4)
30.式中,gru和linear分别表示gru神经网络和全连接神经网络,下标r和i分别表示对应网络的实部和虚部。
31.进一步,所述步骤2具体实现如下:
32.步骤(21)时域复数变换模块由多头复数注意力机制模块、复数形式的gru层、复数形式的全连接层、复数形式的layernorm层连接组合而成;
33.多头复数注意力机制模块中,复数形式的输入信号x=a+jb,查询矩阵q=qr+jqi,密钥矩阵k=kr+jki,价值矩阵v=vr+jvi的计算方法如下,
34.q=xwq(5)
35.k=xwk(6)
36.v=xwv(7)
37.式中,wq,wk,wv均是有待学习的复数形式的系数矩阵,qr,kr,vr分别表示q,k,v三个矩阵的实部,qi,ki,vi分别表示q,k,v三个矩阵的虚部;多头复数注意力机制模块由多个单头复数注意力机制模块进行拼接并最终利用一个投影矩阵进行投影后获得;
38.单头复数注意力机制模块的输出:
[0039][0040]
其中qk
t
v为单头复数注意力机制模块的矩阵,其公式为:
[0041][0042]
softmax表示softmax激活函数,dk表示尺度因子,是q和k的特征维数,而多头复数
注意力机制模块将同一个输入特征图映射到不同的特征空间,通过降低每一组特征矩阵的维度来减少计算复杂度,最终通过一个投影矩阵得到多头复数注意力机制模块的输出,公式如下:
[0043][0044]
式中,concat表示将不同特征空间的注意力机制的输出进行拼接,n表示多头注意力的数目,wo表示投影矩阵;
[0045]
当多头复数注意力机制模块中的q=k=v时,多头复数注意力机制模块则退化为多头复数自注意力机制模块(是q=k=v时的情况下,多头复数注意力机制模块退化为了多头复数自注意力机制模块);
[0046]
最终多头复数自注意力机制模块的输出表示为:
[0047]
complexattention(x)=[multiheadattention(a,a,a)-multiheadattention(a,b,b)-multiheadattention(b,a,b)-multiheadattention(b,b,a)]+j[multiheadattention(a,a,b)+multiheadattention(a,b,a)+multiheadattention(b,a,a)-multiheadattention(b,b,b)](11);
[0048]
(8)式是多头复数自注意力机制模块的输出,(7)式是多头复数注意力机制模块的输出,(8)式是当(q=k=v)时把x=a+jb代入(7)式后的化简结果。
[0049]
给定输入特征图x,时域复数变换模块首先将输入特征图进行层归一化层处理,再输入多头复数注意力机制模块,输出一个时域注意力的得分,再将这个得分依次输入层归一化层、relu激活函数,复数形式的全连接层、层归一化层之中,最终得到时域复数变换模块的输出特征图;
[0050]
步骤(22)频域复数变换模块与时域变换模块相同,也由复数形式的多头自注意力机制模块、复数形式的gru层、复数形式的全连接层、复数形式的layernorm层组合而成,对输入特征图的维数按照频域优先的方式进行重新组合,再输入到频域变换模块中;
[0051]
步骤(23)改进的复数形式的通道注意力模块由最大池化层、平均池化层、复数形式的一维卷积层与复数形式的s激活函数sigmoid层组成,设输入特征图的复数形式为u=ur+jui,其中ur,ui分别是输入特征图的实部和虚部,改进的复数形式的通道注意力模块的计算过程如下:分别将输入特征图的实部和虚部输入到平均池化层与最大池化层中,实部和虚部平均池化层的结果作为复数形式的平均池化层的输出,实部和虚部最大池化层的结果作为复数形式的最大池化层的输出,这两个池化层获得每一个通道的实部和虚部的全局时频信息。然后分别将平均池化层的输出和最大池化层的输出输入复数形式的一维卷积层中,再经过s激活函数的处理后得到改进的复数形式的通道注意力模块的特征图的每一个通道进行加权之后的结果;
[0052]
步骤(24)交互模块是由一个复数形式的卷积层,一个复数形式的层归一化层与复数形式的sigmoid层组成的一个卷积块,设输入复数形式的特征图为数形式的sigmoid层组成的一个卷积块,设输入复数形式的特征图为则交互模块的输出表达式为:
[0053][0054][0055]
式中,表示级联、复数卷积层、复数层归一化层与复数sigmoid层组成的网络,
表示元素对应相乘。
[0056]
进一步,所述步骤3包括:
[0057]
步骤(31)复数形式的深度反卷积神经网络作为解码器部分,对降采样后的特征图进行连续的上采样,恢复到原始的时频图的维度;
[0058]
步骤(32)复理想比率掩码cirm作为训练目标重构待增强语音的时频图,是一种复数域中定义的理想掩码,设待增强语音的复数谱为y,纯净语音信号的复数谱为s,则cirm的计算公式如下:
[0059]
cirm=mr+jmi(14)
[0060]
式中,
[0061][0062][0063]
式中,r和i分别代表复数谱的实部和虚部;cirm的极坐标形式如下:
[0064][0065][0066]
式中,和分别表示被估计值cirm的实部和虚部,和分别表示被估计值cirm的幅度谱和相位谱;最终输出的cirm与带噪语音频谱相乘,得到增强之后的语音信号的频谱,对增强之后的语音信号的频谱再经过短时傅里叶反变换得到增强后的语音信号:
[0067][0068][0069]
式中,和分别代表增强语音的幅度和相位,和分别代表原始增强语音的幅值和相位。
[0070]
本发明采用目前新兴的神经网络序列模型,公开了一种基于交互性时频注意力机制的单通道语音增强方法。基于人类特有的大脑信号处理机制,人类会在嘈杂环境中自动分辨出所需的语音信号并忽略环境中的噪声的特性,提出了一种深度复数神经网络来进行单通道语音增强。创新点如下:
[0071]
(1)本发明采用复数形式的时域变换模块与频域变换模块以及改进的复数通道注意力模块分别在时域、频域、通道域捕捉语音信号中长期的上下文关系,这既弥补了以往神经网络在时域捕捉长期上下文信息能力的不足,又通过频域注意力机制捕捉不同频带之间的相互关系,还利用复数形式的注意力机制取代了传统实数形式的注意力机制同时对幅度和相位进行增强。
[0072]
(2)本发明在时域变换模块与频域变换模块之间引入交互模块,从时域或者频域注意力分支中提取相关信息添加到另一分支中,弥补了两个分支学习后的特征图的缺失。交互模块作为全新设计的模块,可以更好地促进时域变换模块与频域变换模块之间的信息
交互。
[0073]
(3)本发明中一种改进的通道注意力模块,既可以在没有特征缺失的情况下建模不同通道之间的相关性,又在编码器-解码器之间引入残差连接,减小了训练过程中的梯度消失问题。这种通道注意力模块相比于现有的通道注意力模块来说,参数量更小,特征提取更加完整。
附图说明
[0074]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图和附表作简单的介绍,显而易见地,下面描述中的附图和表仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
[0075]
图1为本发明的整体网络结构;
[0076]
图2为本发明中时域复数变换模块和频域复数变换模块的具体结构;
[0077]
图3为本发明中改进的复数形式的通道注意力模块的具体结构;
[0078]
图4为本发明中的时域复数变换模块与频域复数变换模块之间的交互模块的具体结构。
具体实施方式
[0079]
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
[0080]
如图1所示,本发明实施例提供的一种基于交互性时频注意力机制的单通道语音增强方法,该方法主要包括如下步骤:
[0081]
步骤1:将带噪语音信号进行短时傅里叶变换stft,得到带噪语音信号频谱中每一帧的实部和虚部,输入作为编码器的复数形式的深度卷积神经网络中,得到经过深度卷积神经网络特征压缩后的特征图;
[0082]
上述短时傅里叶变换stft包括:
[0083]
对带噪语音进行降采样,使得所有音频信号的采样率均为16khz,经过帧长为400,帧移为200,窗函数选择汉宁窗的短时傅里叶变换后,得到带噪语音信号频谱中每一帧的实部和虚部,如下所示:
[0084]
y(t,f)=s(t,f)+n(t,f)(1)
[0085]
式中,
[0086]
y=yr+jyi[0087]
s=sr+jsi[0088]
其中,y(t,f)表示经过短时傅里叶变换后的单通道待增强语音频谱,t表示时间维度,f表示频率维度;s(t,f)和n(t,f)代表干净语音和背景噪声,y和s表示y(t,f)和s(t,f)的频谱,下标r和i分别代表频谱的实部和虚部,短时傅里叶变换点数为512,变换后的257维对应着频率范围从0到8000hz。
[0089]
上述复数形式的深度卷积神经网络包括:
[0090]
作为对带噪语音频谱进行特征提取的编码器,编码器中由有六个卷积块堆叠而成,每一个卷积块均由一个复数形式的卷积层、复数形式的层归一化层以及复数形式的带参relu激活函数组成;复数形式的卷积层是由四个卷积层按照复数乘法的运算规则进行模拟得到,设复数形式的滤波器矩阵w=wr+jwi,复数形式的输入向量x=xr+jxi,其中,wr和wi是实数张量滤波器矩阵,xr和xi是实数输入张量,实值部分用来模拟复数运算,则复数卷积运算的输出表示为:
[0091]fout
=(xr*w
r-xi*wi)+j(xr*wi+xi*wr)(2)
[0092]
式中,f
out
是复数形式卷积层的输出;同理,也有复数形式的gru层和复数形式的全连接层,输出f
gru
与f
linear
分别为:
[0093]fgru
=(f
rr-f
ii
)+j(f
ri
+f
ir
)
[0094]frr
=grur(xr)f
ir
=grur(xi)
[0095]fri
=grui(xr)f
ii
=grui(xi)(3)
[0096]flinear
=(f
rr-f
ii
)+j(f
ri
+f
ir
)
[0097]frr
=linearr(xr)f
ir
=linearr(xi)
[0098]fri
=lineari(xr)f
ii
=lineari(xi)(4)
[0099]
式中,gru和linear分别表示gru神经网络和全连接神经网络,下标r和i分别表示对应网络的实部和虚部。
[0100]
步骤2:将步骤1得到的深度卷积神经网络进行特征压缩后的特征图分别输入到时域复数变换模块、频域复数变换模块和改进的复数形式的通道注意力模块中;时域复数变换模块和频域复数变换模块并行学习时域和频域的信息;在时域复数变换模块和频域复数变换模块之间引入交互模块,交互模块对时域注意力和频域注意力输出的特征图起到互补作用,交互模块对时域注意力的输出添加额外的频域信息,为频域注意力添加额外的时域信息;时域复数变换模块和频域复数变换模块分别学习到时域特征图和频域特征图在时域和频域上的相关性,该相关性捕获时域长期上下文之间的关系与频域子带之间的跨频带关系;再将交互模块的输出进行加权,得到输出后的特征图;改进的复数形式的通道注意力模块利用一维卷积层与池化层在通道维度的加权信息对深度卷积神经网络中的每一层的特征图进行加权,最终得到深度卷积神经网络中每一层加权后的特征图;
[0101]
如图2所示,本发明实施例提供的一种基于交互性注意力机制的单通道语音增强方法中的时域复数变换模块与频域复数变换模块的具体结构,包括如下步骤(21):
[0102]
步骤(21)时域复数变换模块由多头复数注意力机制模块、复数形式的gru层、复数形式的全连接层、复数形式的layernorm层连接组合而成;
[0103]
多头复数注意力机制模块中,复数形式的输入信号x=a+jb,查询矩阵q=qr+jqi,密钥矩阵k=kr+jki,价值矩阵v=vr+jvi的计算方法如下,
[0104]
q=xwq(5)
[0105]
k=xwk(6)
[0106]
v=xwv(7)
[0107]
式中,wq,wk,wv均是有待学习的复数形式的系数矩阵,qr,kr,vr分别表示q,k,v三个矩阵的实部,qi,ki,vi分别表示q,k,v三个矩阵的虚部;多头复数注意力机制模块由多个单
头复数注意力机制模块进行拼接并最终利用一个投影矩阵进行投影后获得;
[0108]
单头复数注意力机制模块的输出
[0109][0110]
其中,qk
t
v为单头复数注意力机制模块的矩阵,其公式为:
[0111][0112]
softmax表示softmax激活函数,dk表示尺度因子,是q和k的特征维数,而多头复数注意力机制模块将同一个输入特征图映射到不同的特征空间,通过降低每一组特征矩阵的维度来减少计算复杂度,最终通过一个投影矩阵得到多头复数注意力机制模块的输出,公式如下:
[0113][0114]
式中,concat表示将不同特征空间的注意力机制的输出进行拼接,n表示多头注意力的数目,wo表示投影矩阵;
[0115]
当多头复数注意力机制模块中的q=k=v时,多头复数注意力机制模块则退化为多头复数自注意力机制模块;
[0116]
最终多头复数自注意力机制模块的输出表示为:
[0117]
complexattention(x)=[multiheadattention(a,a,a)-multiheadattention(a,b,b)-multiheadattention(b,a,b)-multiheadattention(b,b,a)]+j[multiheadattention(a,a,b)+multiheadattention(a,b,a)+multiheadattention(b,a,a)-multiheadattention(b,b,b)](11);
[0118]
给定输入特征图x,时域复数变换模块首先将输入特征图进行层归一化层处理,再输入多头复数注意力机制模块,输出一个时域注意力的得分,再将这个得分依次输入层归一化层、relu激活函数,复数形式的全连接层、层归一化层之中,最终得到时域复数变换模块的输出特征图;
[0119]
步骤(22)频域复数变换模块与时域变换模块相同,也由复数形式的多头自注意力机制模块、复数形式的gru层、复数形式的全连接层、复数形式的layernorm层组合而成,对输入特征图的维数按照频域优先的方式进行重新组合,再输入到频域变换模块中;
[0120]
如图3所示,本发明实施例提供的一种基于交互性注意力机制的单通道语音增强方法中的改进的复数形式的通道注意力模块,包括如下步骤(23):
[0121]
步骤(23)改进的复数形式的通道注意力模块由最大池化层、平均池化层、复数形式的一维卷积层与复数形式的s激活函数sigmoid层组成,设输入特征图的复数形式为u=ur+jui,其中ur,ui分别是输入特征图的实部和虚部,改进的复数形式的通道注意力模块的计算过程如下:分别将输入特征图的实部和虚部输入到平均池化层与最大池化层中,实部和虚部平均池化层的结果作为复数形式的平均池化层的输出,实部和虚部最大池化层的结果作为复数形式的最大池化层的输出,这两个池化层获得每一个通道的实部和虚部的全局时频信息。然后分别将平均池化层的输出和最大池化层的输出输入复数形式的一维卷积层
中,再经过s激活函数的处理后得到改进的复数形式的通道注意力模块的特征图的每一个通道进行加权之后的结果;
[0122]
如图4所示,本发明实施例提供的一种基于交互性注意力机制的单通道语音增强方法中的时域复数变换模块与频域复数变换模块之间的交互模块,包括如下步骤(24):
[0123]
步骤(24)交互模块是由一个复数形式的卷积层,一个复数形式的层归一化层与复数形式的sigmoid层组成的一个卷积块,设输入复数形式的特征图为数形式的sigmoid层组成的一个卷积块,设输入复数形式的特征图为则交互模块的输出表达式为:
[0124][0125][0126]
式中,表示级联、复数卷积层、复数层归一化层与复数sigmoid层组成的网络,表示元素对应相乘。
[0127]
步骤3:将步骤2的输出的特征图输入到解码器的复数形式的深度反卷积神经网络中,深度反卷积神经网络与深度卷积神经网络利用步骤2中改进的复数形式通道注意力模块相连,构成编码器-解码器结构,得到复理想比率掩码cirm,并利用复理想比率掩码cirm重构增强之后的语音信号的频谱,对增强之后的语音信号的频谱再经过短时傅里叶反变换得到增强后的语音信号。
[0128]
上述步骤3实现具体为:
[0129]
步骤(31)复数形式的深度反卷积神经网络作为解码器部分,对降采样后的特征图进行连续的上采样,恢复到原始的时频图的维度;
[0130]
步骤(32)复理想比率掩码cirm作为训练目标重构待增强语音的时频图,是一种复数域中定义的理想掩码,设待增强语音的复数谱为y,纯净语音信号的复数谱为s,则cirm的计算公式如下:
[0131]
cirm=mr+jmi(14)
[0132]
式中,
[0133][0134][0135]
式中,r和i分别代表复数谱的实部和虚部;cirm的极坐标形式如下:
[0136][0137][0138]
式中,和分别表示被估计值cirm的实部和虚部,和分别表示被估计值cirm的幅度谱和相位谱;最终输出的cirm与带噪语音频谱相乘,得到增强之后的语音信号的频谱,对增强之后的语音信号的频谱再经过短时傅里叶反变换得到增强后的语音信号:
[0139]
[0140][0141]
式中,和分别代表增强语音的幅度和相位,和分别代表原始增强语音的幅值和相位。
[0142]
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

技术特征:


1.一种基于交互性时频注意力机制的单通道语音增强方法,其特征在于,包括以下步骤:步骤1:将带噪语音信号进行短时傅里叶变换stft,得到带噪语音信号频谱中每一帧的实部和虚部,输入作为编码器的复数形式的深度卷积神经网络中,得到经过深度卷积神经网络特征压缩后的特征图;步骤2:将步骤1得到的深度卷积神经网络进行特征压缩后的特征图分别输入到时域复数变换模块、频域复数变换模块和改进的复数形式的通道注意力模块中;时域复数变换模块和频域复数变换模块并行学习时域和频域的信息;在时域复数变换模块和频域复数变换模块之间引入交互模块,交互模块对时域注意力和频域注意力输出的特征图起到互补作用,交互模块对时域注意力的输出添加额外的频域信息,为频域注意力添加额外的时域信息;时域复数变换模块和频域复数变换模块分别学习到时域特征图和频域特征图在时域和频域上的相关性,该相关性捕获时域长期上下文之间的关系与频域子带之间的跨频带关系;再将交互模块的输出进行加权,得到输出后的特征图;改进的复数形式的通道注意力模块利用一维卷积层与池化层在通道维度的加权信息对深度卷积神经网络中的每一层的特征图进行加权,最终得到深度卷积神经网络中每一层加权后的特征图;步骤3:将步骤2的输出的特征图输入到解码器的复数形式的深度反卷积神经网络中,深度反卷积神经网络与深度卷积神经网络利用步骤2中改进的复数形式通道注意力模块相连,构成编码器-解码器结构,得到复理想比率掩码cirm,并利用复理想比率掩码cirm重构增强之后的语音信号的频谱,对增强之后的语音信号的频谱再经过短时傅里叶反变换得到增强后的语音信号。2.根据权利要求1所述的基于交互性时频注意力机制的单通道语音增强方法,其特征在于:所述步骤1中,短时傅里叶变换stft包括:对带噪语音进行降采样,使得所有音频信号的采样率均为16khz,经过帧长为400,帧移为200,窗函数选择汉宁窗的短时傅里叶变换后,得到带噪语音信号频谱中每一帧的实部和虚部,如下所示:y(t,f)=s(t,f)+n(t,f)(1)式中,y=y
r
+jy
i
s=s
r
+js
i
其中,y(t,f)表示经过短时傅里叶变换后的单通道待增强语音频谱,t表示时间维度,f表示频率维度;s(t,f)和n(t,f)代表干净语音和背景噪声,y和s表示y(t,f)和s(t,f)的频谱,下标r和i分别代表频谱的实部和虚部,短时傅里叶变换点数为512,变换后的257维对应着频率范围从0到8000hz。3.根据权利要求1所述的基于交互性时频注意力机制的单通道语音增强方法,其特征在于:所述步骤1中,复数形式的深度卷积神经网络包括:作为对带噪语音频谱进行特征提取的编码器,编码器中由有六个卷积块堆叠而成,每一个卷积块均由一个复数形式的卷积层、复数形式的层归一化层以及复数形式的带参relu激活函数组成;复数形式的卷积层是由四个卷积层按照复数乘法的运算规则进行模拟得到,设复数形式的滤波器矩阵w=w
r
+jw
i
,复数形式的输入向量x=x
r
+jx
i
,其中,w
r
和w
i
是实
数张量滤波器矩阵,x
r
和x
i
是实数输入张量,实值部分用来模拟复数运算,则复数卷积运算的输出表示为:f
out
=(x
r
*w
r-x
i
*w
i
)+j(x
r
*w
i
+x
i
*w
r
)(2)式中,f
out
是复数形式卷积层的输出;同理,也有复数形式的gru层和复数形式的全连接层,输出f
gru
与f
linear
分别为:f
gru
=(f
rr-f
ii
)+j(f
ri
+f
ir
)f
rr
=gru
r
(x
r
)f
ir
=gru
r
(x
i
)f
ri
=gru
i
(x
r
)f
ii
=gru
i
(x
i
)(3)f
linear
=(f
rr-f
ii
)+j(f
ri
+f
ir
)f
rr
=linear
r
(x
r
)f
ir
=linear
r
(x
i
)f
ri
=linear
i
(x
r
)f
ii
=linear
i
(x
i
)(4}式中,gru和linear分别表示gru神经网络和全连接神经网络,下标r和i分别表示对应网络的实部和虚部。4.根据权利要求1所述的基于交互性时频注意力机制的单通道语音增强方法,其特征在于,所述步骤2具体实现如下:步骤(21)时域复数变换模块由多头复数注意力机制模块、复数形式的gru层、复数形式的全连接层、复数形式的layernorm层连接组合而成;多头复数注意力机制模块中,复数形式的输入信号x=a+jb,查询矩阵q=q
r
+jq
i
,密钥矩阵k=k
r
+jk
i
,价值矩阵v=v
r
+jv
i
的计算方法如下,q=xw
q
(5)k=xw
k
(6)v=xwv(7)式中,w
q
,w
k
,wv均是有待学习的复数形式的系数矩阵,q
r
,k
r
,v
r
分别表示q,k,v三个矩阵的实部,q
i
,k
i
,v
i
分别表示q,k,v三个矩阵的虚部;多头复数注意力机制模块由多个单头复数注意力机制模块进行拼接并最终利用一个投影矩阵进行投影后获得;单头复数注意力机制模块的输出:其中,qk
t
v为单头复数注意力机制模块的矩阵,其公式为:softmax表示softmax激活函数,d
k
表示尺度因子,是q和k的特征维数,而多头复数注意力机制模块将同一个输入特征图映射到不同的特征空间,通过降低每一组特征矩阵的维度来减少计算复杂度,最终通过一个投影矩阵得到多头复数注意力机制模块的输出,公式如下:式中,concat表示将不同特征空间的注意力机制的输出进行拼接,n表示多头注意力的
数目,w
o
表示投影矩阵;当多头复数注意力机制模块中的q=k=v时,多头复数注意力机制模块则退化为多头复数自注意力机制模块;最终多头复数自注意力机制模块的输出表示为:complexattention(x)=[multiheadattention(a,a,a)-multiheadattention(a,b,b)-multiheadattention(b,a,b)-multiheadattention(b,b,a)]+j[multiheadattention(a,a,b)+multiheadattention(a,b,a)+multiheadattention(b,a,a)-multiheadattention(b,b,b)](11);给定输入特征图x,时域复数变换模块首先将输入特征图进行层归一化层处理,再输入多头复数注意力机制模块,输出一个时域注意力的得分,再将这个得分依次输入层归一化层、relu激活函数,复数形式的全连接层、层归一化层之中,最终得到时域复数变换模块的输出特征图;步骤(22)频域复数变换模块与时域变换模块相同,也由复数形式的多头自注意力机制模块、复数形式的gru层、复数形式的全连接层、复数形式的layernorm层组合而成,对输入特征图的维数按照频域优先的方式进行重新组合,再输入到频域变换模块中;步骤(23)改进的复数形式的通道注意力模块由最大池化层、平均池化层、复数形式的一维卷积层与复数形式的s激活函数sigmoid层组成,设输入特征图的复数形式为u=u
r
+ju
i
,其中u
r
,u
i
分别是输入特征图的实部和虚部,改进的复数形式的通道注意力模块的计算过程如下:分别将输入特征图的实部和虚部输入到平均池化层与最大池化层中,实部和虚部平均池化层的结果作为复数形式的平均池化层的输出,实部和虚部最大池化层的结果作为复数形式的最大池化层的输出,这两个池化层获得每一个通道的实部和虚部的全局时频信息;然后分别将平均池化层的输出和最大池化层的输出输入复数形式的一维卷积层中,再经过s激活函数的处理后得到改进的复数形式的通道注意力模块的特征图的每一个通道进行加权之后的结果;步骤(24)交互模块是由一个复数形式的卷积层,一个复数形式的层归一化层与复数形式的sigmoid层组成的一个卷积块,设输入复数形式的特征图为为则交互模块的输出表达式为:则交互模块的输出表达式为:式中,表示级联、复数卷积层、复数层归一化层与复数sigmoid层组成的网络,表示元素对应相乘。5.根据权利要求1所述的基于交互性时频注意力机制的单通道语音增强方法,其特征在于,所述步骤3包括:步骤(31)复数形式的深度反卷积神经网络作为解码器部分,对降采样后的特征图进行连续的上采样,恢复到原始的时频图的维度;步骤(32)复理想比率掩码cirm作为训练目标重构待增强语音的时频图,是一种复数域中定义的理想掩码,设待增强语音的复数谱为y,纯净语音信号的复数谱为s,则cirm的计算公式如下:cirm=m
r
+jm
i
(14)
式中,式中,式中,r和i分别代表复数谱的实部和虚部;cirm的极坐标形式如下:cirm的极坐标形式如下:式中,和分别表示被估计值cirm的实部和虚部,和分别表示被估计值cirm的幅度谱和相位谱;最终输出的cirm与带噪语音频谱相乘,得到增强之后的语音信号的频谱,对增强之后的语音信号的频谱再经过短时傅里叶反变换得到增强后的语音信号:对增强之后的语音信号的频谱再经过短时傅里叶反变换得到增强后的语音信号:式中,和分别代表增强语音的幅度和相位,和分别代表原始增强语音的幅值和相位。

技术总结


本发明涉及一种基于交互性时频注意力机制的单通道语音增强方法,采用复数形式的Transformer模型分别在时域、频域、通道域捕捉语音信号中长期的上下文关系,这既弥补了以往神经网络在时域捕捉长期上下文信息能力的不足,又通过频域注意力机制捕捉不同频带之间的相互关系,还利用复数形式的注意力机制取代了传统实数形式的注意力机制同时对幅度和相位进行增强;在时域注意力机制模块与频域注意力机制模块之间引入交互模块,从时域或者频域注意力分支中提取相关信息添加到另一分支中,弥补两个分支学习后的特征图的缺失;本发明既可以在没有特征缺失的情况下建模不同通道之间的相关性,又在两级Transformer模块之间引入残差连接,减小了训练过程中的梯度消失问题。减小了训练过程中的梯度消失问题。减小了训练过程中的梯度消失问题。


技术研发人员:

叶中付 于润祥 赵紫微

受保护的技术使用者:

中国科学技术大学

技术研发日:

2022.07.26

技术公布日:

2022/11/3


文章投稿或转载声明

本文链接:http://www.wtabcd.cn/zhuanli/patent-1-34709-0.html

来源:专利查询检索下载-实用文体写作网版权所有,转载请保留出处。本站文章发布于 2022-12-12 16:53:42

发表评论

验证码:
用户名: 密码: 匿名发表
评论列表 (有 条评论
2人围观
参与讨论