本文作者:kaifamei

语音降噪方法、装置、设备及计算机可读存储介质与流程

更新时间:2025-12-27 18:03:18 0条评论

语音降噪方法、装置、设备及计算机可读存储介质与流程



1.本发明涉及音频处理技术领域,尤其涉及一种语音降噪方法、装置、设备及计算机可读存储介质。


背景技术:



2.语音降噪是指对带噪声的语音数据进行去除噪声,尽量得到纯净的语音数据。语音降噪应用领域广泛,例如常常应用在语音通话场景。由于骨传导传感器采集的信号是人说话时颅骨振动产生的信号,受到的外界噪声的干扰相对于麦克风而言较小,所以目前的语音降噪算法中,会利用骨传导传感器采集振动信号再通过算法转换为音频数据,作为降噪后的语音数据。但是通过骨传导传感器采集得到的音频数据的频率只在1khz以下,声音听起来会感觉很低沉,听感不佳,所以有人考虑结合骨传导传感器采集的音频数据和麦克风采集的音频数据进行语音降噪,但是,如何结合能够获得较好的降噪效果是目前亟待解决的问题。


技术实现要素:



3.本发明的主要目的在于提供一种语音降噪方法、装置、设备及计算机可读存储介质,旨在提供一种结合骨传导传感器采集的音频数据和麦克风采集的音频数据进行语音降噪的方案,以提高语音降噪效果。
4.为实现上述目的,本发明提供一种语音降噪方法,所述语音降噪方法包括以下步骤:
5.获取通过麦克风采集的第一音频数据,以及获取通过骨传导传感器采集的第二音频数据;
6.将所述第一音频数据中第一频段内的音频数据和所述第二音频数据中第二频段内的音频数据拼接得到第三音频数据,其中,所述第一频段的下限频点大于或等于所述第二频段的上限频点;
7.将所述第三音频数据的音频特征输入至增益预测模型进行预测,得到所述第一频段中各个频点分别对应的预测增益,其中,所述预测增益表征所述第三音频数据内对应频点的音频数据中纯语音数据的能量占比的预测值,所述增益预测模型是预先通过训练数据训练得到的神经网络模型;
8.采用所述预测增益对所述第三音频数据中所述第一频段内的音频数据进行增益处理,得到语音降噪结果。
9.可选地,所述将所述第三音频数据的音频特征输入至增益预测模型进行预测,得到所述第一频段中各个频点分别对应的预测增益的步骤包括:
10.将所述第三音频数据的音频特征输入至增益预测模型进行预测,得到所述第一频段中预设数量的子频段分别对应的预测增益;
11.将目标子频段对应的所述预测增益作为所述目标子频段内各个频点分别对应的
预测增益,其中,所述目标子频段为各所述子频段中的任意一个子频段。
12.可选地,所述将所述第三音频数据的音频特征输入至增益预测模型进行预测,得到所述第一频段中各个频点分别对应的预测增益的步骤之前,还包括:
13.获取在安静场景下通过麦克风采集的第一纯语音数据和通过骨传导传感器采集的第二纯语音数据,获取在噪声场景下通过麦克风采集的噪声音频数据;
14.将所述第一纯语音数据与所述噪声音频数据混合得到带噪语音数据,并将所述带噪语音数据中所述第一频段内的音频数据和所述第二纯语音数据中第二频段内的音频数据拼接得到第四音频数据;
15.根据所述第一纯语音数据中所述目标子频段内的纯语音数据的能量和所述带噪语音数据中所述目标子频段内的带噪语音数据的能量,计算得到所述目标子频段对应的标签增益;
16.采用所述第四音频数据的音频特征作为模型输入数据,采用各所述子频段分别对应的所述标签增益作为模型训练标签,对待训练的所述增益预测模型进行训练,得到训练完成的所述增益预测模型。
17.可选地,所述将所述第一音频数据中第一频段内的音频数据和所述第二音频数据中第二频段内的音频数据拼接得到第三音频数据的步骤包括:
18.对于n帧所述第一音频数据和与n帧所述第一音频数据同步采集的n帧所述第二音频数据,将第i帧所述第一音频数据中第一频段内的音频数据和第i帧所述第二音频数据中第二频段内的音频数据拼接得到第i帧所述第三音频数据,其中,i=1、2
……
n;
19.所述将所述第三音频数据的音频特征输入至增益预测模型进行预测,得到所述第一频段中各个频点分别对应的预测增益的步骤包括:
20.分别提取n帧所述第三音频数据的音频特征,并将n帧所述第三音频数据的音频特征输入所述增益预测模型进行预测,得到所述第一频段中各个频点分别对应的预测增益,其中,所述预测增益表征第n帧所述第三音频数据内对应频点的音频数据中纯语音数据的能量占比的预测值;
21.所述采用所述预测增益对所述第三音频数据中所述第一频段内的音频数据进行增益处理,得到语音降噪结果的步骤包括:
22.采用所述预测增益对第n帧所述第三音频数据中所述第一频段的音频数据进行增益处理,得到第n帧所述第三音频数据对应的语音降噪结果。
23.可选地,所述对于n帧所述第一音频数据和与n帧所述第一音频数据同步采集的n帧所述第二音频数据,将第i帧所述第一音频数据中第一频段内的音频数据和第i帧所述第二音频数据中第二频段内的音频数据拼接得到第i帧所述第三音频数据的步骤之前,还包括:
24.当获取到的所述第一音频数据或所述第二音频数据不足n帧时,采用预设音频数据对不足的帧数进行补齐,得到n帧所述第一音频数据和n帧所述第二音频数据。
25.可选地,所述获取通过麦克风采集的第一音频数据的步骤包括:
26.通过麦克风阵列采集得到各路麦克风信号;
27.基于波束形成算法对各路麦克风信号进行降噪处理,得到第一音频数据。
28.可选地,当所述预测增益为所述第三音频数据内对应频点的音频数据中纯语音数
据的能量占比的预测值时,所述采用所述预测增益对所述第三音频数据中所述第一频段内的音频数据进行增益处理,得到语音降噪结果的步骤包括:
29.将所述第三音频数据中所述第一频段内各个频点的音频数据与对应频点的所述预测增益相乘,得到语音降噪结果。
30.为实现上述目的,本发明还提供一种语音降噪装置,所述语音降噪装置包括:
31.获取模块,用于获取通过麦克风采集的第一音频数据,以及获取通过骨传导传感器采集的第二音频数据;
32.拼接模块,用于将所述第一音频数据中第一频段内的音频数据和所述第二音频数据中第二频段内的音频数据拼接得到第三音频数据;
33.预测模块,用于将所述第三音频数据的音频特征输入至增益预测模型进行预测,得到所述第一频段中各个频点分别对应的预测增益,其中,所述第一频段的下限频点大于或等于所述第二频段的上限频点,所述预测增益表征所述第三音频数据内对应频点的音频数据中纯语音数据的能量占比的预测值,所述增益预测模型是预先通过训练数据训练得到的神经网络模型;
34.增益模块,用于采用所述预测增益对所述第三音频数据中所述第一频段内的音频数据进行增益处理,得到语音降噪结果。
35.为实现上述目的,本发明还提供一种语音降噪设备,所述语音降噪设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音降噪程序,所述语音降噪程序被所述处理器执行时实现如上所述的语音降噪方法的步骤。
36.此外,为实现上述目的,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有语音降噪程序,所述语音降噪程序被处理器执行时实现如上所述的语音降噪方法的步骤。
37.本发明中,获取通过麦克风采集的第一音频数据,以及获取通过骨传导传感器采集的第二音频数据;将第一音频数据中第一频段内的音频数据和第二音频数据中第二频段内的音频数据拼接得到第三音频数据,其中,第一频段的下限频点大于或等于第二频段的上限频点;将第三音频数据的音频特征输入至增益预测模型进行预测,得到第一频段中各个频点分别对应的预测增益,其中,预测增益表征第三音频数据内对应频点的音频数据中纯语音数据的能量占比的预测值,增益预测模型是预先通过训练数据训练得到的神经网络模型;采用预测增益对第三音频数据中第一频段内的音频数据进行增益处理,得到语音降噪结果。本发明实现了一种结合骨传导传感器采集的音频数据和麦克风采集的音频数据进行语音降噪的方案,结合了骨传导传感器和麦克风的优势,并利用神经网络模型进行增益预测的方式将两种类型的音频数据进行结合,提高了语音降噪效果。
附图说明
38.图1为本发明实施例方案涉及的硬件运行环境的结构示意图;
39.图2为本发明语音降噪方法第一实施例的流程示意图;
40.图3为本发明实施例涉及的一种增益预测模型的结构示意图;
41.图4为本发明语音降噪装置较佳实施例的功能模块示意图。
42.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
43.应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
44.如图1所示,图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
45.需要说明的是,本发明实施例语音降噪设备,所述语音降噪设备可以是耳机、智能手机、个人计算机、服务器等设备,在此不做具体限制。
46.如图1所示,该语音降噪设备可以包括:处理器1001,例如cpu,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
47.本领域技术人员可以理解,图1中示出的设备结构并不构成对语音降噪设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
48.如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音降噪程序。操作系统是管理和控制设备硬件和软件资源的程序,支持语音降噪程序以及其它软件或程序的运行。在图1所示的设备中,用户接口1003主要用于与客户端进行数据通信;网络接口1004主要用于与服务器建立通信连接;而处理器1001可以用于调用存储器1005中存储的语音降噪程序,并执行以下操作:
49.获取通过麦克风采集的第一音频数据,以及获取通过骨传导传感器采集的第二音频数据;
50.将所述第一音频数据中第一频段内的音频数据和所述第二音频数据中第二频段内的音频数据拼接得到第三音频数据,其中,所述第一频段的下限频点大于或等于所述第二频段的上限频点;
51.将所述第三音频数据的音频特征输入至增益预测模型进行预测,得到所述第一频段中各个频点分别对应的预测增益,其中,所述预测增益表征所述第三音频数据内对应频点的音频数据中纯语音数据的能量占比的预测值,所述增益预测模型是预先通过训练数据训练得到的神经网络模型;
52.采用所述预测增益对所述第三音频数据中所述第一频段内的音频数据进行增益处理,得到语音降噪结果。
53.进一步地,所述将所述第三音频数据的音频特征输入至增益预测模型进行预测,得到所述第一频段中各个频点分别对应的预测增益的操作包括:
54.将所述第三音频数据的音频特征输入至增益预测模型进行预测,得到所述第一频段中预设数量的子频段分别对应的预测增益;
55.将目标子频段对应的所述预测增益作为所述目标子频段内各个频点分别对应的预测增益,其中,所述目标子频段为各所述子频段中的任意一个子频段。
56.进一步地,所述将所述第三音频数据的音频特征输入至增益预测模型进行预测,得到所述第一频段中各个频点分别对应的预测增益的操作之前,处理器1001还可以用于调用存储器1005中存储的语音降噪程序,执行以下操作:
57.获取在安静场景下通过麦克风采集的第一纯语音数据和通过骨传导传感器采集的第二纯语音数据,获取在噪声场景下通过麦克风采集的噪声音频数据;
58.将所述第一纯语音数据与所述噪声音频数据混合得到带噪语音数据,并将所述带噪语音数据中所述第一频段内的音频数据和所述第二纯语音数据中第二频段内的音频数据拼接得到第四音频数据;
59.根据所述第一纯语音数据中所述目标子频段内的纯语音数据的能量和所述带噪语音数据中所述目标子频段内的带噪语音数据的能量,计算得到所述目标子频段对应的标签增益;
60.采用所述第四音频数据的音频特征作为模型输入数据,采用各所述子频段分别对应的所述标签增益作为模型训练标签,对待训练的所述增益预测模型进行训练,得到训练完成的所述增益预测模型。
61.进一步地,所述将所述第一音频数据中第一频段内的音频数据和所述第二音频数据中第二频段内的音频数据拼接得到第三音频数据的操作包括:
62.对于n帧所述第一音频数据和与n帧所述第一音频数据同步采集的n帧所述第二音频数据,将第i帧所述第一音频数据中第一频段内的音频数据和第i帧所述第二音频数据中第二频段内的音频数据拼接得到第i帧所述第三音频数据,其中,i=1、2
……
n;
63.所述将所述第三音频数据的音频特征输入至增益预测模型进行预测,得到所述第一频段中各个频点分别对应的预测增益的操作包括:
64.分别提取n帧所述第三音频数据的音频特征,并将n帧所述第三音频数据的音频特征输入所述增益预测模型进行预测,得到所述第一频段中各个频点分别对应的预测增益,其中,所述预测增益表征第n帧所述第三音频数据内对应频点的音频数据中纯语音数据的能量占比的预测值;
65.所述采用所述预测增益对所述第三音频数据中所述第一频段内的音频数据进行增益处理,得到语音降噪结果的操作包括:
66.采用所述预测增益对第n帧所述第三音频数据中所述第一频段的音频数据进行增益处理,得到第n帧所述第三音频数据对应的语音降噪结果。
67.进一步地,所述对于n帧所述第一音频数据和与n帧所述第一音频数据同步采集的n帧所述第二音频数据,将第i帧所述第一音频数据中第一频段内的音频数据和第i帧所述第二音频数据中第二频段内的音频数据拼接得到第i帧所述第三音频数据的操作之前,处理器1001还可以用于调用存储器1005中存储的语音降噪程序,执行以下操作:
68.当获取到的所述第一音频数据或所述第二音频数据不足n帧时,采用预设音频数据对不足的帧数进行补齐,得到n帧所述第一音频数据和n帧所述第二音频数据。
69.进一步地,所述获取通过麦克风采集的第一音频数据的操作包括:
70.通过麦克风阵列采集得到各路麦克风信号;
71.基于波束形成算法对各路麦克风信号进行降噪处理,得到第一音频数据。
72.进一步地,当所述预测增益为所述第三音频数据内对应频点的音频数据中纯语音数据的能量占比的预测值时,所述采用所述预测增益对所述第三音频数据中所述第一频段内的音频数据进行增益处理,得到语音降噪结果的操作包括:
73.将所述第三音频数据中所述第一频段内各个频点的音频数据与对应频点的所述
预测增益相乘,得到语音降噪结果。
74.基于上述的结构,提出语音降噪方法的各个实施例。
75.参照图2,图2为本发明语音降噪方法第一实施例的流程示意图。
76.本发明实施例提供了语音降噪方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。在本实施例中,语音降噪方法的执行主体可以是耳机、个人电脑、智能手机等设备,在本实施例中并不做限制,以下为便于描述,省略执行主体进行各实施例的阐述。在本实施例中,所述语音降噪方法包括:
77.步骤s10,获取通过麦克风采集的第一音频数据,以及获取通过骨传导传感器采集的第二音频数据;
78.可以通过麦克风采集信号(以下称为麦克风信号以示区分),对麦克风信号进行转换处理得到音频数据(以下称为第一音频数据以示区分);在通过麦克风采集信号时,同步通过骨传导传感器采集信号(以下称为骨传导信号以示区分),对骨传导信号进行转换处理得到音频数据(以下称为第二音频数据以示区分)。
79.骨传导传感器和麦克风传感器可以设置在执行本实施例语音降噪算法的设备中,例如,设置在耳机设备中,也可以设置在其他设备中,在本实施例中并不做限制。
80.需要说明的是,对麦克风信号进行转换处理得到第一音频数据以及对骨传导信号进行转换处理得到第二音频数据的具体实现方式,在本实施例中并不做限制,可以参照常规的麦克风算法或骨传导算法。
81.在具体实施方式中,可以是基于多帧第一音频数据和多帧第二音频数据进行语音降噪,也可以是单帧第一音频数据和单帧第二音频数据进行语音降噪。对音频数据进行分帧的方式以及每帧数据的时长在本实施例中并不做限制。
82.进一步地,在一实施方式中,对麦克风信号进行转换处理得到第一音频数据时,可以采用其他针对麦克风信号的语音降噪算法先进行初步降噪,也即,得到的第一音频数据是经过初步语音降噪的,再将第一音频数据与第二音频数据结合来进行进一步的语音降噪,从而进一步提升语音降噪效果。其中,对初步降噪所采用的语音降噪算法并不做限制。
83.例如,在一实施方式中,可以基于波束形成算法对麦克风信号进行初步降噪。具体地,所述步骤s10中获取通过麦克风采集的第一音频数据的步骤包括:
84.步骤s101,通过麦克风阵列采集得到各路麦克风信号;
85.步骤s102,基于波束形成算法对各路麦克风信号进行降噪处理,得到第一音频数据。
86.可以通过设置的麦克风阵列来采集信号,麦克风阵列中的各个麦克风分别采集获得一路麦克风信号。基于波束形成算法对各路麦克风信号进行降噪处理,得到第一音频数据。波束形成算法基于各路麦克风信号的相位差能够麦克风信号的声源方向,根据预先标定的用户嘴巴相对于麦克风阵列的方向,可以从麦克风信号中提取出从用户嘴巴方向来的声音信号,进而通过将该方向的声音信号进行增强,将其他方向的声音信号进行抑制,可以实现初步语音降噪处理,得到第一音频数据。
87.步骤s20,将所述第一音频数据中第一频段内的音频数据和所述第二音频数据中第二频段内的音频数据拼接得到第三音频数据,其中,所述第一频段的下限频点大于或等
于所述第二频段的上限频点;
88.可以在全频段上划分出第一频段和第二频段,第一频段的下限频点大于或等于第二频段的上限频点。在本实施例中,对第一频段和第二频段的划分方式并不做限制。在具体实施方式中,可以将骨传导传感器采集的音频数据听感较佳(符合设定的听感需求)的频段作为第二频段,将全频段除第二频段以外的部分作为第一频段。例如,第一频段可以是1khz以上(包含1khz),第二频段可以是1khz以下。
89.将第一音频数据中第一频段内的音频数据和第二音频数据中第二频段内的音频数据进行拼接得到音频数据(以下称为第三音频数据以示区分)。例如,当第一频段是1khz以上(包含1khz),第二频段是1khz以下时,将第一音频数据中1khz以上(包含1khz)的音频数据和第二音频数据中1khz以下的音频数据进行拼接,得到第三音频数据。
90.需要说明的是,当基于多帧第一音频数据和多帧第二音频数据进行语音降噪时,对每一帧第一音频数据,将该帧第一音频数据中第一频段内的音频数据与同步采集的一帧第二音频数据中第二频段内的音频数据进行拼接,得到一帧第三音频数据。
91.步骤s30,将所述第三音频数据的音频特征输入至增益预测模型进行预测,得到所述第一频段中各个频点分别对应的预测增益,其中,所述预测增益表征所述第三音频数据内对应频点的音频数据中纯语音数据的能量占比的预测值,所述增益预测模型是预先通过训练数据训练得到的神经网络模型;
92.预先设置一个神经网络模型,其输入数据设置为音频数据的音频特征;音频特征可以是采用音频特征提取算法提取得到的,在本实施例中并不做限制,例如,可以是提取mfcc(mel频率倒谱系数,mel frequency cepstrum coefficient)特征;输出数据设置为第一频段内各个频点或各个子频段分别对应的增益,该增益用于表征输入的音频特征所对应的该音频数据中对应频点的音频数据中纯语音数据的能量占比的预测值。除输入数据和输出数据的设置以外,该神经网络模型的内部结构也可以根据需要设置,具体采用怎样的结构,在本实施例中并不做限制。针对该输入数据和输出数据的设置,预先采集相应的训练数据来对该神经网络模型进行训练,使得该神经网络模型所预测得到的增益的准确度符合设定的需求,进而可以将该神经网络模型进行部署。为示区分,将训练完成的该神经网络模型称为增益预测模型。
93.可以对第三音频数据进行音频特征的提取,将提取到的音频特征输入至增益预测模型进行预测,得到第一频段内各个频点对应的增益(由于是预测的结果,以下为示区分,称为预测增益)。需要说明的是,当增益预测模型的输出的是第一频段内各个子频段对应的预测增益时,可以通过插值的方式得到子频段内各个频点的预测增益,从而,得到第一频段内各个频点对应的预测增益。
94.对于某一频点对应的预测增益,该预测增益表征第三音频数据中该频点的音频数据中纯语音数据的能量占比的预测值。可以理解的是,能量占比的预测值并不是能量占比本身,也即,增益预测模型只能够得到预测的结果,该结果可能是真实的能量占比,也可能是与真实的能量占比有误差。其中,需要说明的是,“表征”的意思是指该预测增益可以是但不限于是第三音频数据内该频点的音频数据中纯语音数据占该频点的音频数据的能量占比的预测值,例如,也可以是第三音频数据内该频点的音频数据的能量除以该频点的音频数据中纯语音数据的能量得到的比值的预测值。
95.步骤s40,采用所述预测增益对所述第三音频数据中所述第一频段内的音频数据进行增益处理,得到语音降噪结果。
96.在得到第一频段内各个频点对应的预测增益后,采用预测增益对第三音频数据进行增益处理。具体地,对于第三音频数据中第一频段内每个频点的音频数据,采用该频点的预测增益对该频点的音频数据进行增益处理;对于第三音频数据中第二频段内各个频点的音频数据,则可以不做处理。将经过增益处理后的第三音频数据作为语音降噪结果。
97.需要说明的是,采用预测增益对音频数据进行增益处理的具体处理过程,与预测增益的定义有关。例如,当某个频点的预测增益就是指第三音频数据中该频点的音频数据的能量除以该频点的音频数据中纯语音数据的能量得到的比值的预测值时,可以将第三音频数据中该频点的音频数据除以该预测增益,得到该频点对应的语音降噪结果。
98.又如,在一实施方式中,当所述预测增益为所述第三音频数据内对应频点的音频数据中纯语音数据的能量占比的预测值时,所述步骤s40包括:
99.步骤s401,将所述第三音频数据中所述第一频段内各个频点的音频数据与对应频点的所述预测增益相乘,得到语音降噪结果。
100.对于第一频段内的每个频点,将第三音频数据中该频点的音频数据乘以该频点对应的预测增益,即可得到该频点对应的语音降噪结果。
101.在本实施例中,获取通过麦克风采集的第一音频数据,以及获取通过骨传导传感器采集的第二音频数据;将第一音频数据中第一频段内的音频数据和第二音频数据中第二频段内的音频数据拼接得到第三音频数据,其中,第一频段的下限频点大于或等于第二频段的上限频点;将第三音频数据的音频特征输入至增益预测模型进行预测,得到第一频段中各个频点分别对应的预测增益,其中,预测增益表征第三音频数据内对应频点的音频数据中纯语音数据的能量占比的预测值,增益预测模型是预先通过训练数据训练得到的神经网络模型;采用预测增益对第三音频数据中第一频段内的音频数据进行增益处理,得到语音降噪结果。本实施例实现了一种结合骨传导传感器采集的音频数据和麦克风采集的音频数据进行语音降噪的方案,结合了骨传导传感器和麦克风的优势,并利用神经网络模型进行增益预测的方式将两种类型的音频数据进行结合,提高了语音降噪效果。
102.进一步地,基于上述第一实施例,提出本发明语音降噪算法第二实施例,在本实施例中,所述步骤s30包括:
103.步骤s301,将所述第三音频数据的音频特征输入至增益预测模型进行预测,得到所述第一频段中预设数量的子频段分别对应的预测增益;
104.为降低模型复杂度,从而降低语音降噪对设备算力的要求或提高语音降噪的效率,在本实施例中,将第一频段划分为预设数量的子频段,将神经网络模型的输出数据设置为各个子频段分别对应的增益。其中,预设数量可以根据需要设置,在本实施例中并不做限制,例如可以设置为20个;各个子频段的跨度可以相同也可以不同,也可以根据需要设置。
105.将第三音频数据的音频特征输入至增益预测模型进行预测,得到第一频段中各个子频段分别对应的预测增益。
106.步骤s302,将目标子频段对应的所述预测增益作为所述目标子频段内各个频点分别对应的预测增益,其中,所述目标子频段为各所述子频段中的任意一个子频段。
107.对于任意一个子频段(以下称为目标子频段以示区分),将该目标子频段对应的预
测增益作为该目标子频段内各个频点分别对应的预测增益。也即,采用插值法补全子频段内各个频点所对应的预测增益,从而得到第一频段内各个频点分别对应的预测增益。
108.进一步地,在一实施方式中,所述步骤s30之前,还包括:
109.步骤s60,获取在安静场景下通过麦克风采集的第一纯语音数据和通过骨传导传感器采集的第二纯语音数据,获取在噪声场景下通过麦克风采集的噪声音频数据;
110.安静场景可以是噪声低于一定标准的场景。可以由测试人员在安静场景下讲话,同时通过麦克风采集信号和通过骨传导传感器采集信号,将麦克风采集的信号转换处理得到音频数据(以下称为第一纯语音数据以示区分),将骨传导传感器采集的信号转换处理得到音频数据(以下称为第二纯语音数据以示区分)。
111.噪声场景可以是噪声高于一定标准,或具有特定噪声的场景,在噪声场景下没有人声。在噪声场景下通过麦克风采集信号,将麦克风采集的信号转化处理得到音频数据(以下称为噪声音频数据以示区分)。
112.步骤s70,将所述第一纯语音数据与所述噪声音频数据混合得到带噪语音数据,并将所述带噪语音数据中所述第一频段内的音频数据和所述第二纯语音数据中第二频段内的音频数据拼接得到第四音频数据;
113.将第一纯语音数据与噪声音频数据进行混合,即可得到带有噪声的语音数据(以下称为带噪语音数据以示区分)。
114.需要说明的是,当第一音频数据是对麦克风阵列采集的信号基于波束形成算法进行降噪处理得到时,可以先将麦克风阵列中每个麦克风在安静场景下采集的信号与在噪声场景下采集的信号进行混合,再对各个麦克风的混合信号基于波束形成算法进行降噪处理得到带噪语音数据,此时的带噪语音数据中的噪声是初步降噪处理后仍残留的噪声。
115.在得到带噪语音数据后,可以将带噪语音数据中第一频段内的音频数据和第二纯语音数据中第二频段内的音频数据进行拼接得到音频数据(以下称为第四音频数据以示区分)。
116.步骤s80,根据所述第一纯语音数据中所述目标子频段内的纯语音数据的能量和所述带噪语音数据中所述目标子频段内的带噪语音数据的能量,计算得到所述目标子频段对应的标签增益;
117.第一纯语音数据相当于是带噪语音数据降噪后的结果。对于第一频段内各个子频段中的任意一个子频段(也即目标子频段),可以根据第一纯语音数据中该目标子频段内的纯语音数据的能量和带噪语音数据中该目标子频段内的带噪语音数据的能量,计算得到目标子频段对应的增益(由于是真实的增益,用于作为训练标签,所以以下称为标签增益以示区分)。
118.标签增益的具体计算方法与预测增益的定义有关。例如,当某个频点的预测增益就是指第三音频数据中该频点的音频数据的能量除以该频点的音频数据中纯语音数据的能量得到的比值的预测值时,那么,对于任意一个子频段,可以将带噪语音数据中该子频段内的带噪语音数据的能量除以第一纯语音数据中该子频段内的纯语音数据的能量,得到该子频段对应的标签增益。又如,当某个频点的预测增益就是指第三音频数据中该频点的音频数据中纯语音数据的能量占比的预测值时,那么,对于任意一个子频段,可以将第一纯语音数据中该子频段内的纯语音数据的能量除以带噪语音数据中该子频段内的带噪语音数
据的能量,得到该子频段对应的标签增益。
119.步骤s90,采用所述第四音频数据的音频特征作为模型输入数据,采用各所述子频段分别对应的所述标签增益作为模型训练标签,对待训练的所述增益预测模型进行训练,得到训练完成的所述增益预测模型。
120.对于待训练的增益预测模型(也即预先设置的神经网络模型),可以采用第四音频数据的音频特征作为模型输入数据,采用各个子频段分别对应的标签增益作为模型训练标签,采用有监督训练的方法对该模型进行训练,得到训练完成的增益预测模型。在本实施方式中,对训练方法不做限制。
121.进一步地,基于上述第一和/或第二实施例在,提出本发明语音降噪算法第三实施例,在本实施例中,所述步骤s20包括:
122.步骤s201,对于n帧所述第一音频数据和与n帧所述第一音频数据同步采集的n帧所述第二音频数据,将第i帧所述第一音频数据中第一频段内的音频数据和第i帧所述第二音频数据中第二频段内的音频数据拼接得到第i帧所述第三音频数据,其中,i=1、2
……
n;
123.预先可以根据需要设置n的大小,例如设置为5。对于每采集到的一帧第一音频数据(称为当前帧第一音频数据)和与该帧第一音频数据同步采集的一帧第二音频数据(称为当前帧第二音频数据),结合在前采集的n-1帧第一音频数据和n-1帧第二音频数据,得到n帧第一音频数据和n帧第二音频数据,采用这n帧第一音频数据和n帧第二音频数据对当前帧第一音频数据(也就是第n帧第一音频数据)和当前帧第二音频数据(也就是第n帧第二音频数据)所拼接得到的第三音频数据进行语音降噪。
124.具体地,可以将n帧第一音频数据中的第i帧第一音频数据中第一频段内的音频数据,和n帧第二音频数据中的第i帧第二音频数据中第二频段内的音频数据进行拼接,得到第i帧第三音频数据。其中,i=1、2
……
n。可以理解的是,一共可以得到n帧第三音频数据。
125.所述步骤s30包括:
126.步骤s303,分别提取n帧所述第三音频数据的音频特征,并将n帧所述第三音频数据的音频特征输入所述增益预测模型进行预测,得到所述第一频段中各个频点分别对应的预测增益,其中,所述预测增益表征第n帧所述第三音频数据内对应频点的音频数据中纯语音数据的能量占比的预测值;
127.对于n帧第三音频数据分别提取音频特征,将n帧第三音频数据的音频特征一起输入增益预测模型进行预测,得到第一频段中各个频点分别对应的预测增益,此时,该预测增益表征的是第n帧第三音频数据内对应频点的音频数据中纯语音数据的能量占比的预测值。
128.所述步骤s40包括:
129.步骤s402,采用所述预测增益对第n帧所述第三音频数据中所述第一频段的音频数据进行增益处理,得到第n帧所述第三音频数据对应的语音降噪结果。
130.在得到第一频段中各个频点分别对应的预测增益后,采用预测增益对第n帧第三音频数据中第一频段的音频数据进行增益处理,也即,对于第一频段中的每个频点,采用该频点的预测增益对第n帧第三音频数据中该频点的音频数据进行增益处理,得到第n帧第三音频数据所对应的语音降噪结果。
131.进一步地,在一实施方式中,神经网络模型的内部结构可以设置为由多个gru(门
控循环神经网络,gated recurrent neural network)和一个全连接层(dense)组成,多个gru跳连式连接,也即,多个gru顺序排列,每个gru输出的结果都给到在其之后的每个gru,全连接层接在最后一个gru之后。示例性地,如图3所示,增益预测模型由四个gru和一个全连接层组成,并且,图中是以输入5帧第三音频数据的32维的音频特征、输出20个子频段分别对应的预测增益为例。
132.进一步地,在一实施方式中,所述步骤s201之前,还包括:
133.步骤s202,当获取到的所述第一音频数据或所述第二音频数据不足n帧时,采用预设音频数据对不足的帧数进行补齐,得到n帧所述第一音频数据和n帧所述第二音频数据。
134.在具体应用场景中,所能够获取到的第一音频数据和第二音频数据可能不足n帧,例如,在语音通话场景,对第开始通话后所采集的第一帧第一音频数据和第二音频数据进行语音降噪时,前面的n-1帧都是没有的。当获取到的第一音频数据或第二音频数据不足n帧时,可以采用预设音频数据对不足的帧数进行补齐,从而获得n帧第一音频数据和n帧第二音频数据。预设音频数据可以根据需要设置,在本实施方式中并不做限制;对于第一音频数据和第二音频数据,可以设置不同的预设音频数据,也可以设置相同的预设音频数据,例如,都设置为0,也即不足的帧数都补零。
135.此外,本发明实施例还提出一种语音降噪装置,参照图4,所述语音降噪装置包括:
136.获取模块10,用于获取通过麦克风采集的第一音频数据,以及获取通过骨传导传感器采集的第二音频数据;
137.拼接模块20,用于将所述第一音频数据中第一频段内的音频数据和所述第二音频数据中第二频段内的音频数据拼接得到第三音频数据;
138.预测模块30,用于将所述第三音频数据的音频特征输入至增益预测模型进行预测,得到所述第一频段中各个频点分别对应的预测增益,其中,所述第一频段的下限频点大于或等于所述第二频段的上限频点,所述预测增益表征所述第三音频数据内对应频点的音频数据中纯语音数据的能量占比的预测值,所述增益预测模型是预先通过训练数据训练得到的神经网络模型;
139.增益模块40,用于采用所述预测增益对所述第三音频数据中所述第一频段内的音频数据进行增益处理,得到语音降噪结果。
140.进一步地,所述预测模块30还用于:
141.将所述第三音频数据的音频特征输入至增益预测模型进行预测,得到所述第一频段中预设数量的子频段分别对应的预测增益;
142.将目标子频段对应的所述预测增益作为所述目标子频段内各个频点分别对应的预测增益,其中,所述目标子频段为各所述子频段中的任意一个子频段。
143.进一步地,所述获取模块10还用于:
144.获取在安静场景下通过麦克风采集的第一纯语音数据和通过骨传导传感器采集的第二纯语音数据,获取在噪声场景下通过麦克风采集的噪声音频数据;
145.所述拼接模块20还用于:
146.将所述第一纯语音数据与所述噪声音频数据混合得到带噪语音数据,并将所述带噪语音数据中所述第一频段内的音频数据和所述第二纯语音数据中第二频段内的音频数据拼接得到第四音频数据;
147.所述语音降噪装置还包括:
148.计算模块,用于根据所述第一纯语音数据中所述目标子频段内的纯语音数据的能量和所述带噪语音数据中所述目标子频段内的带噪语音数据的能量,计算得到所述目标子频段对应的标签增益;
149.训练模块,用于采用所述第四音频数据的音频特征作为模型输入数据,采用各所述子频段分别对应的所述标签增益作为模型训练标签,对待训练的所述增益预测模型进行训练,得到训练完成的所述增益预测模型。
150.进一步地,所述拼接模块20还用于:
151.对于n帧所述第一音频数据和与n帧所述第一音频数据同步采集的n帧所述第二音频数据,将第i帧所述第一音频数据中第一频段内的音频数据和第i帧所述第二音频数据中第二频段内的音频数据拼接得到第i帧所述第三音频数据,其中,i=1、2
……
n;
152.所述预测模块30还用于:
153.分别提取n帧所述第三音频数据的音频特征,并将n帧所述第三音频数据的音频特征输入所述增益预测模型进行预测,得到所述第一频段中各个频点分别对应的预测增益,其中,所述预测增益表征第n帧所述第三音频数据内对应频点的音频数据中纯语音数据的能量占比的预测值;
154.所述增益模块40还用于:
155.采用所述预测增益对第n帧所述第三音频数据中所述第一频段的音频数据进行增益处理,得到第n帧所述第三音频数据对应的语音降噪结果。
156.进一步地,所述语音降噪装置还包括:
157.补齐模块,用于当获取到的所述第一音频数据或所述第二音频数据不足n帧时,采用预设音频数据对不足的帧数进行补齐,得到n帧所述第一音频数据和n帧所述第二音频数据。
158.进一步地,所述获取模块10还用于:
159.通过麦克风阵列采集得到各路麦克风信号;
160.基于波束形成算法对各路麦克风信号进行降噪处理,得到第一音频数据。
161.进一步地,当所述预测增益为所述第三音频数据内对应频点的音频数据中纯语音数据的能量占比的预测值时,所述增益模块40还用于:
162.将所述第三音频数据中所述第一频段内各个频点的音频数据与对应频点的所述预测增益相乘,得到语音降噪结果。
163.本发明语音降噪装置各实施例,均可参照本发明语音降噪方法各个实施例,此处不再赘述。
164.此外,本发明实施例还提出一种计算机可读存储介质,所述存储介质上存储有语音降噪程序,所述语音降噪程序被处理器执行时实现如下所述的语音降噪方法的步骤。
165.本发明语音降噪设备和计算机可读存储介质各实施例,均可参照本发明语音降噪方法各个实施例,此处不再赘述。
166.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有
的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
167.上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
168.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
169.以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

技术特征:


1.一种语音降噪方法,其特征在于,所述语音降噪方法包括以下步骤:获取通过麦克风采集的第一音频数据,以及获取通过骨传导传感器采集的第二音频数据;将所述第一音频数据中第一频段内的音频数据和所述第二音频数据中第二频段内的音频数据拼接得到第三音频数据,其中,所述第一频段的下限频点大于或等于所述第二频段的上限频点;将所述第三音频数据的音频特征输入至增益预测模型进行预测,得到所述第一频段中各个频点分别对应的预测增益,其中,所述预测增益表征所述第三音频数据内对应频点的音频数据中纯语音数据的能量占比的预测值,所述增益预测模型是预先通过训练数据训练得到的神经网络模型;采用所述预测增益对所述第三音频数据中所述第一频段内的音频数据进行增益处理,得到语音降噪结果。2.如权利要求1所述的语音降噪方法,其特征在于,所述将所述第三音频数据的音频特征输入至增益预测模型进行预测,得到所述第一频段中各个频点分别对应的预测增益的步骤包括:将所述第三音频数据的音频特征输入至增益预测模型进行预测,得到所述第一频段中预设数量的子频段分别对应的预测增益;将目标子频段对应的所述预测增益作为所述目标子频段内各个频点分别对应的预测增益,其中,所述目标子频段为各所述子频段中的任意一个子频段。3.如权利要求2所述的语音降噪方法,其特征在于,所述将所述第三音频数据的音频特征输入至增益预测模型进行预测,得到所述第一频段中各个频点分别对应的预测增益的步骤之前,还包括:获取在安静场景下通过麦克风采集的第一纯语音数据和通过骨传导传感器采集的第二纯语音数据,获取在噪声场景下通过麦克风采集的噪声音频数据;将所述第一纯语音数据与所述噪声音频数据混合得到带噪语音数据,并将所述带噪语音数据中所述第一频段内的音频数据和所述第二纯语音数据中第二频段内的音频数据拼接得到第四音频数据;根据所述第一纯语音数据中所述目标子频段内的纯语音数据的能量和所述带噪语音数据中所述目标子频段内的带噪语音数据的能量,计算得到所述目标子频段对应的标签增益;采用所述第四音频数据的音频特征作为模型输入数据,采用各所述子频段分别对应的所述标签增益作为模型训练标签,对待训练的所述增益预测模型进行训练,得到训练完成的所述增益预测模型。4.如权利要求1所述的语音降噪方法,其特征在于,所述将所述第一音频数据中第一频段内的音频数据和所述第二音频数据中第二频段内的音频数据拼接得到第三音频数据的步骤包括:对于n帧所述第一音频数据和与n帧所述第一音频数据同步采集的n帧所述第二音频数据,将第i帧所述第一音频数据中第一频段内的音频数据和第i帧所述第二音频数据中第二频段内的音频数据拼接得到第i帧所述第三音频数据,其中,i=1、2
……
n;
所述将所述第三音频数据的音频特征输入至增益预测模型进行预测,得到所述第一频段中各个频点分别对应的预测增益的步骤包括:分别提取n帧所述第三音频数据的音频特征,并将n帧所述第三音频数据的音频特征输入所述增益预测模型进行预测,得到所述第一频段中各个频点分别对应的预测增益,其中,所述预测增益表征第n帧所述第三音频数据内对应频点的音频数据中纯语音数据的能量占比的预测值;所述采用所述预测增益对所述第三音频数据中所述第一频段内的音频数据进行增益处理,得到语音降噪结果的步骤包括:采用所述预测增益对第n帧所述第三音频数据中所述第一频段的音频数据进行增益处理,得到第n帧所述第三音频数据对应的语音降噪结果。5.如权利要求4所述的语音降噪方法,其特征在于,所述对于n帧所述第一音频数据和与n帧所述第一音频数据同步采集的n帧所述第二音频数据,将第i帧所述第一音频数据中第一频段内的音频数据和第i帧所述第二音频数据中第二频段内的音频数据拼接得到第i帧所述第三音频数据的步骤之前,还包括:当获取到的所述第一音频数据或所述第二音频数据不足n帧时,采用预设音频数据对不足的帧数进行补齐,得到n帧所述第一音频数据和n帧所述第二音频数据。6.如权利要求1所述的语音降噪方法,其特征在于,所述获取通过麦克风采集的第一音频数据的步骤包括:通过麦克风阵列采集得到各路麦克风信号;基于波束形成算法对各路麦克风信号进行降噪处理,得到第一音频数据。7.如权利要求1至6中任一项所述的语音降噪方法,其特征在于,当所述预测增益为所述第三音频数据内对应频点的音频数据中纯语音数据的能量占比的预测值时,所述采用所述预测增益对所述第三音频数据中所述第一频段内的音频数据进行增益处理,得到语音降噪结果的步骤包括:将所述第三音频数据中所述第一频段内各个频点的音频数据与对应频点的所述预测增益相乘,得到语音降噪结果。8.一种语音降噪装置,其特征在于,所述语音降噪装置包括:获取模块,用于获取通过麦克风采集的第一音频数据,以及获取通过骨传导传感器采集的第二音频数据;拼接模块,用于将所述第一音频数据中第一频段内的音频数据和所述第二音频数据中第二频段内的音频数据拼接得到第三音频数据;预测模块,用于将所述第三音频数据的音频特征输入至增益预测模型进行预测,得到所述第一频段中各个频点分别对应的预测增益,其中,所述第一频段的下限频点大于或等于所述第二频段的上限频点,所述预测增益表征所述第三音频数据内对应频点的音频数据中纯语音数据的能量占比的预测值,所述增益预测模型是预先通过训练数据训练得到的神经网络模型;增益模块,用于采用所述预测增益对所述第三音频数据中所述第一频段内的音频数据进行增益处理,得到语音降噪结果。9.一种语音降噪设备,其特征在于,所述语音降噪设备包括:存储器、处理器及存储在
所述存储器上并可在所述处理器上运行的语音降噪程序,所述语音降噪程序被所述处理器执行时实现如权利要求1至7中任一项所述的语音降噪方法的步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有语音降噪程序,所述语音降噪程序被处理器执行时实现如权利要求1至7中任一项所述的语音降噪方法的步骤。

技术总结


本发明公开了一种语音降噪方法、装置、设备及计算机可读存储介质,方法包括:获取通过麦克风采集的第一音频数据,以及获取通过骨传导传感器采集的第二音频数据;将第一音频数据中第一频段内的音频数据和第二音频数据中第二频段内的音频数据拼接得到第三音频数据;将第三音频数据的音频特征输入至增益预测模型进行预测,得到第一频段中各个频点分别对应的预测增益;采用预测增益对第三音频数据中第一频段内的音频数据进行增益处理,得到语音降噪结果。本发明实现了一种结合骨传导传感器采集的音频数据和麦克风采集的音频数据进行语音降噪的方案,提高了语音降噪效果。提高了语音降噪效果。提高了语音降噪效果。


技术研发人员:

蒋超

受保护的技术使用者:

歌尔科技有限公司

技术研发日:

2022.09.29

技术公布日:

2023/1/19


文章投稿或转载声明

本文链接:http://www.wtabcd.cn/zhuanli/patent-1-69768-0.html

来源:专利查询检索下载-实用文体写作网版权所有,转载请保留出处。本站文章发布于 2023-01-22 11:24:42

发表评论

验证码:
用户名: 密码: 匿名发表
评论列表 (有 条评论
2人围观
参与讨论