本文作者:kaifamei

语音唤醒方法、装置及可读存储介质与流程

更新时间:2025-12-26 14:44:08 0条评论

语音唤醒方法、装置及可读存储介质与流程



1.本公开涉及人工智能领域,尤其涉及一种语音唤醒方法、装置及可读存储介质。


背景技术:



2.语音唤醒的是指将设备从休眠状态激活至运行状态,不同的产品具有不同的唤醒词,当说话人说出指定的唤醒词时即可唤醒设备。
3.现有的语音唤醒技术中,经常存在用户未进行唤醒而设备被唤醒的情况。以音箱为例,用户本身并没有提出语音唤醒需求,而音箱周边的电视、手机通过扬声器播放了包含唤醒词的音频,音箱捕捉到该唤醒音频就会被唤醒,然后做出语音应答,这是尽量要被避免的场景。多种电子设备共存的场景是未来智能生活的必然趋势,所以要尽量避免被电子设备音误唤醒,做到不打扰用户。


技术实现要素:



4.为克服相关技术中存在的问题,本公开提供一种语音唤醒方法、装置及可读存储介质。
5.本公开的第一方面实施例提供一种语音唤醒方法,包括:
6.获取语音信息,并从所述语音信息之中提取具有无损格式的至少一个唤醒音频片段特征;
7.根据所述唤醒音频特征,得到至少一个唤醒音频片段特征;
8.将所述至少一个唤醒音频片段特征输入唤醒语音判别模型,以得到用于表征所述语音信息的声音质量的预测分数;
9.根据所述预测分数,判断所述语音信息是否满足预设声音质量条件;
10.响应于判断所述语音信息满足预设声音质量条件,执行所述语音信息对应的操作。
11.可选地,所述唤醒语音判别模型包括至少两层时延神经网络和一层归一化模型。
12.可选地,所述从所述语音信息之中提取具有无损格式的至少一个唤醒音频片段特征,包括:
13.将获取到的所述语音信息转换为预设无损格式,得到所述语音文件;
14.检测所述语音文件中是否包含预设语句;
15.响应于检测所述语音文件中包含预设语句,获取所述预设语句对应的音频,得到唤醒音频;
16.根据所述唤醒音频,得到所述唤醒音频特征;
17.根据所述唤醒音频特征,得到至少一个唤醒音频片段特征。
18.可选地,所述根据所述唤醒音频特征,得到所述至少一个唤醒音频片段特征,包括:
19.按照预设时长分割所述唤醒音频特征,以得到所述至少一个唤醒音频片段特征,
其中,每一所述唤醒音频片段特征的长度为所述预设时长。
20.可选地,所述将所述至少一个唤醒音频片段特征输入唤醒语音判别模型,以得到用于表征所述语音信息的声音质量的预测分数,包括:
21.根据所述至少一个唤醒音频片段特征与所述唤醒语音判别模型,得到至少一个音频特征分数;
22.根据所述至少一个音频特征分数,按预设公式计算得到以得到用于表征所述语音信息的声音质量的预测分数。
23.可选地,所述根据所述至少一个唤醒音频片段特征与所述唤醒语音判别模型,得到至少一个音频特征分数,包括:
24.对所述至少一个唤醒音频片段特征中的每一个所述唤醒音频片段特征,执行预设预测操作,得到至少一个音频特征分数,所述预设预测操作包括:
25.将所述唤醒音频片段特征与第一上下文特征,输入所述唤醒语音判别模型的第一时延神经网络,以得到第一唤醒音频向量,其中,所述唤醒音频片段特征与所述第一上下文特征相邻;
26.将所述第一唤醒音频向量与第二上下文向量,输入所述唤醒语音判别模型的第二时延神经网络,以得到第二唤醒音频向量,其中,所述第一唤醒音频向量与所述第二上下文向量相邻;
27.将所述第二唤醒音频向量输入所述唤醒语音判别模型的所述归一化模型,得到所述唤醒音频片段特征的音频特征分数。
28.可选地,所述第一上下文特征包括所述唤醒音频片段特征的第一预设数量个上文特征与第二预设数量个下文特征;所述第二上下文向量包括所述第一唤醒音频向量的第三预设数量个上文向量与第四预设数量个下文向量,其中,所述第三预设数量与所述第四预设数量根据向量长度阈值设置,且所述第三预设数量大于所述第四预设数量。
29.可选地,所述根据所述预测分数,判断所述语音信息是否满足预设声音质量条件,包括:
30.当所述预测分数大于预设阈值时,判断所述语音信息满足预设声音质量条件;和/或
31.当所述预测分数小于或等于所述预设阈值时,判断所述语音信息不满足预设声音质量条件。
32.本公开的第二方面实施例提供一种语音唤醒装置,包括:
33.处理器;
34.用于存储处理器可执行指令的存储器;
35.其中,所述处理器被配置为执行所述语音唤醒方法。
36.本公开的第三方面实施例提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现所述语音唤醒方法的步骤。
37.本公开实施例提供的技术方案可以包括以下有益效果:
38.本公开实施例通过获取语音信息,并从所述语音信息之中提取具有无损格式的至少一个唤醒音频片段特征,并将所述至少一个唤醒音频片段特征输入唤醒语音判别模型,以得到所述语音信息的预测分数以及根据所述预测分数,判断所述语音信息是否满足预设
声音质量条件。通过本公开实施例可以快速、准确的识别语音信息是否是人声,降低误唤醒的概率,提升用户的使用体验。
39.应当理解的是,以上的一般描述和后文特征的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
40.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
41.图1是根据一示例性实施例示出的一种语音唤醒方法的流程图。
42.图2是根据一示例性实施例示出的语音唤醒方法中从语音信息之中提取具有无损格式的至少一个唤醒音频片段特征的流程图。
43.图3是根据一示例性实施例示出的语音唤醒方法中唤醒语音判别模型的示意图。
44.图4是根据一示例性实施例示出的预设预测操作的流程图。
45.图5是根据一示例性实施例示出的唤醒语音判别模型的训练方法的流程图。
46.图6是根据一示例性实施例示出的一种语音唤醒装置的示意图。
47.图7是根据另一示例性实施例示出的一种语音唤醒装置的示意图。
具体实施方式
48.在相关技术中,智能产品不能识别出电子设备播放出的唤醒语音信息,使得当电子设备通过扬声器播放的声音含有唤醒词时,会误唤醒智能产品,打扰用户,造成用户体验较差。
49.鉴于此,本公开实施例提供一种语音唤醒方法、装置及可读存储介质,以提高对电子设备播放的唤醒语音信息的识别率。
50.下面将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
51.图1是根据一示例性实施例示出的一种语音唤醒方法的流程图。如图1所示,该语音唤醒方法可以包括以下步骤。
52.步骤s11,获取语音信息,并从所述语音信息之中提取具有无损格式的至少一个唤醒音频片段特征。
53.本公开实施例中,语音信息可以是人声,即人发出的声音。在本公开的其他实施例之中,语音信息也可以是电子声,即电子设备播放的录制的人声。
54.本公开实施例所提供的语音唤醒方法可以应用于智能产品,本公开实施例对智能产品的类型不作具体限定,例如手机、移动终端等。当该语音唤醒方法应用于智能产品时,该智能产品中可以设置有采集设备,用于采集语音信息。所述采集设备还可以设置在智能产品外,获取语音信息后向该智能产品传递所述语音信息。
55.如图2所示,该语音唤醒方法中从所述语音信息之中提取具有无损格式的至少一个唤醒音频片段特征包括以下步骤:
56.步骤s21,将获取到的所述语音信息转换为预设无损格式,得到所述语音文件。
57.本公开实施例中,当所述语音信息是人声时,将所述人声转换为所述预设无损格式,得到所述语音文件;或当所述语音信息是电子声时,也可将所述电子声转换为所述预设无损格式,得到所述语音文件。
58.本公开实施例中,所述预设无损格式为无损音频数据格式。例如,所述预设无损格式可以是波形音频文件格式(wav),也可以是其他无损音频数据格式,本公开实施例对此不做限定。
59.步骤s22,检测所述语音文件中是否包含预设语句。
60.本公开实施例中,所述检测所述语音文件中是否包含预设语句,包括:
61.采用预设关键词检测方法检测所述语音文件中是否包含预设语句。
62.本公开实施例中,所述预设关键词检测方法可以是大规模连续语音识别(large vocabulary continuous speech recognition,lvcsr)方法,本公开实施例对此不作限定。
63.本公开实施例中,所述预设语句可以是智能产品默认的唤醒词,也可以是用户设置的唤醒词。
64.例如,当所述预设语句是“语音助手”时,检测所述语音文件中是否包含“语音助手”。
65.步骤s23,响应于检测所述语音文件中包含预设语句,获取所述预设语句对应的音频,得到唤醒音频。
66.本公开实施例中,所述获取所述预设语句对应的音频,得到唤醒音频,包括:
67.以所述预设语句在所述语音文件中开始的时间为起始时间,以所述预设语句在所述语音文件中结束的时间为终止时间,根据所述起始时间与所述终止时间对所述语音文件进行截取,得到所述唤醒音频。
68.例如,当所述预设语句是“语音助手”,且所述语音文件中包含“语音助手”时,以“语音助手”在所述语音文件中开始的时间为起始时间,以“语音助手”在所述语音文件中结束的时间为终止时间,根据所述起始时间与所述终止时间对所述语音文件进行截取,得到所述唤醒音频,所述唤醒音频为内容是“语音助手”的音频。
69.结合本公开的实施例,当环境中同时存在电子设备播放的有损压缩的音频文件或者视频文件和人声时,获取预设语句对应的音频,才能在后续数据处理中对预设语句是否满足预设声音质量条件进行判断,进而判断所述语音信息是人声或者电子声。
70.结合本公开的实施例,响应于检测所述语音文件中包含预设语句,获取所述预设语句对应的音频,得到唤醒音频,可以减少后续数据处理中需要处理的数据量,有助于提升判断的速度,进而提升响应速度,提高用户的使用体验。
71.步骤s24,根据所述唤醒音频,得到所述唤醒音频特征。
72.本公开实施例中,所述根据所述唤醒音频,得到所述唤醒音频特征,包括:
73.将所述唤醒音频输入频谱特征提取模型;
74.所述频谱特征提取模型根据所述唤醒音频计算所述唤醒音频的音频特征,得到所述唤醒音频特征。
75.本公开实施例中,所述频谱特征提取模型可以是梅尔倒谱系数模型,或快速傅里叶变换模型,或频谱模型,还可以是其他语音特征提取模型,本公开实施例对此不作限制。
76.例如,当所述频谱特征提取模型是梅尔倒谱系数模型时,所述根据所述唤醒音频,得到唤醒音频特征,包括:
77.将所述唤醒音频输入频谱特征提取模型;
78.所述频谱特征提取模型根据所述唤醒音频计算所述唤醒音频的梅尔倒谱系数特征,得到所述唤醒音频特征。
79.步骤s25,根据所述唤醒音频特征,得到所述至少一个唤醒音频片段特征。
80.本公开实施例中,所述根据所述唤醒音频特征,得到所述至少一个唤醒音频片段特征,包括:
81.按照预设时长分割所述唤醒音频特征,以得到所述至少一个唤醒音频片段特征,其中,每一所述唤醒音频片段特征的长度为所述预设时长。
82.本公开实施例中,所述预设时长可以是10毫秒至20毫秒。
83.例如,所述预设时长可以是10毫秒,按照10毫秒分割所述唤醒音频特征,得到所述至少一个唤醒音频片段特征,每一所述唤醒音频片段特征的长度为10毫秒。当然在本公开的其他实施例之中,可以将预设时长设置为其他时间。
84.结合本公开的实施例,根据所述唤醒音频特征,得到至少一个唤醒音频片段特征,可以通过减少后续数据处理中需要处理的数据量以提升判断的速度,进而提升响应速度,提高用户的使用体验。
85.步骤s12,将所述至少一个唤醒音频片段特征输入唤醒语音判别模型,以得到用于表征所述语音信息的声音质量的预测分数。
86.本公开实施例中,所述唤醒语音判别模型包括至少两层时延神经网络和一层归一化模型。
87.所述唤醒语音判别模型如图3所示,包括第一时延神经网络301,第二时延神经网络302,归一化模型303。
88.本公开实施例中,所述将所述至少一个唤醒音频片段特征输入唤醒语音判别模型,以得到用于表征所述语音信息的声音质量的预测分数,包括:
89.根据所述至少一个唤醒音频片段特征与所述唤醒语音判别模型,得到至少一个音频特征分数;
90.根据所述至少一个音频特征分数,按预设公式计算得到以得到用于表征所述语音信息的声音质量的预测分数。
91.本公开实施例中,所述根据所述至少一个唤醒音频片段特征与所述唤醒语音判别模型,得到至少一个音频特征分数,包括:
92.对所述至少一个唤醒音频片段特征中的每一个所述唤醒音频片段特征,执行预设预测操作,得到至少一个音频特征分数,所述预设预测操作包括:
93.将所述唤醒音频片段特征与第一上下文特征,输入所述唤醒语音判别模型的第一时延神经网络,以得到第一唤醒音频向量,其中,所述唤醒音频片段特征与所述第一上下文特征相邻;
94.将所述第一唤醒音频向量与第二上下文向量,输入所述唤醒语音判别模型的第二时延神经网络,以得到第二唤醒音频向量,其中,所述第一唤醒音频向量与所述第二上下文向量相邻;
95.将所述第二唤醒音频向量输入所述唤醒语音判别模型的所述归一化模型,得到所述唤醒音频片段特征的音频特征分数。
96.结合本公开的实施例,使用时延神经网络的步骤,可以表达语音特征在时间上的关系,提高判断的准确率。
97.结合本公开的实施例,因为邻近时域的音频特征上下文信息相似度较高,将所述唤醒音频片段特征与所述唤醒音频片段特征相关联的第一上下文特征输入所述唤醒语音判别模型的第一时延神经网络,以得到第一唤醒音频向量,可以减少输入第二时延神经网络的数据量,同时获得与将唤醒音频片段特征输入第二时延神经网络模型近似的效果,提升判断的速度,提高用户的使用体验。
98.本公开实施例中,所述第一上下文特征包括所述唤醒音频片段特征的第一预设数量个上文特征与第二预设数量个下文特征;所述第二上下文向量包括所述第一唤醒音频向量的第三预设数量个上文向量与第四预设数量个下文向量,其中,所述第三预设数量与所述第四预设数量根据向量长度阈值设置,且所述第三预设数量大于所述第四预设数量。
99.本公开实施例中,根据向量长度阈值设置所述第三预设数量与所述第四预设数量,包括:
100.使得所述第三预设数量与所述第四预设数量的和大于向量长度阈值。
101.本公开实施例中,对所述第一预设数量和所述第二预设数量不做限定。
102.在本公开的较优实施例中,所述第一预设数量与所述第二预设数量均小于所述第四预设数量,且所述第一预设数量等于所述第二预设数量。
103.结合本公开的实施例,使得所述第一唤醒音频向量的长度与所述第二上下文向量输入的长度的和大于向量长度阈值,可以保证较多的上下文输入,提高判断的准确率。使得第三预设数量大于所述第四预设数量,可以降低时延,提高判断的准确率。
104.本公开实施例中,当所述唤醒音频片段特征的上文特征长度小于所述第一预设数量时,按第一预设填充值对所述唤醒音频片段特征的上文特征进行填充,得到所述唤醒音频片段特征的第一预设数量个上文特征。
105.本公开实施例中,当所述唤醒音频片段特征的下文特征长度小于所述第二预设数量时,按第二预设填充值对所述唤醒音频片段特征的下文特征进行填充,得到所述唤醒音频片段特征的第二预设数量个下文特征。
106.本公开实施例中,当所述第一唤醒音频向量的上文向量长度小于所述第三预设数量时,按第三预设填充值对所述第一唤醒音频向量的上文向量进行填充,得到所述第一唤醒音频向量的第三预设数量个上文向量。
107.本公开实施例中,当所述第一唤醒音频向量的下文向量长度小于所述第四预设数量时,按第四预设填充值对所述第一唤醒音频向量的下文向量进行填充,得到所述第一唤醒音频向量的第四预设数量个下文向量。
108.本公开实施例中,所述第一预设填充值、所述第二预设填充值、所述第三预设填充值、所述第四预设填充值分别可以是0,或任意固定值,或所述唤醒音频片段特征或第一唤醒音频向量的值,或使用缺失值填充方法确定的数值,例如,拉格朗日插值法确定的数值。
109.例如,当所述第一预设数量是3,所述第二预设数量是3,所述第三预设数量是28,所述第四预设数量是6,所述向量长度阈值是30时,预设预测操作的流程图如图4所示。
110.对所述至少一个唤醒音频片段特征中的每一个所述唤醒音频片段特征,执行预设预测操作,所述预设预测操作包括:
111.将所述唤醒音频片段特征401与所述唤醒音频片段特征相关联的第一上下文特征输入所述唤醒语音判别模型的第一时延神经网络402,以得到第一唤醒音频向量403,所述唤醒音频片段特征的第一上下文特征包括所述唤醒音频片段特征的3个上文特征与3个下文特征;
112.将所述第一唤醒音频向量403与所述第一唤醒音频向量的第二上下文向量输入所述唤醒语音判别模型的第二时延神经网络404,得到第二唤醒音频向量405,所述第一唤醒音频向量的第二上下文向量包括所述第一唤醒音频向量的28个上文向量与6个下文向量;
113.将所述第二唤醒音频向量405输入所述唤醒语音判别模型的所述归一化模型406,得到所述唤醒音频片段特征的音频特征分数407。
114.本公开实施例中,所述归一化模型用于将所述第二唤醒音频向量线性变换到[0,1]区间内。例如,所述归一化模型可以是归一化指数函数(softmax)模型,也可以是其他归一化函数模型,本公开不做限制。
[0115]
结合本公开的实施例,所述根据所述至少一个音频特征分数,按预设公式计算得到以得到用于表征所述语音信息的声音质量的预测分数,包括:
[0116]
按平均数公式计算所述至少一个的所述音频特征分数的平均数,将所述至少一个的所述音频特征分数的平均数作为所述预测分数。
[0117]
在步骤s13中,根据所述预测分数,判断所述语音信息是否满足预设声音质量条件。
[0118]
本公开实施例中,所述根据所述预测分数,判断所述语音信息是否满足预设声音质量条件,包括:
[0119]
当所述预测分数大于预设阈值时,判断所述语音信息满足预设声音质量条件;和/或
[0120]
当所述预测分数小于或等于所述预设阈值时,判断所述语音信息不满足预设声音质量条件。
[0121]
本公开实施例中,根据所述唤醒语音判别模型确定所述预设阈值。
[0122]
例如,当所述预设阈值是0.8时:
[0123]
当所述预测分数为0.9,所述预测分数大于所述预设阈值,判断所述语音信息满足预设声音质量条件;
[0124]
当所述预测分数为0.6,所述预测分数小于所述预设阈值,判断所述语音信息不满足预设声音质量条件。
[0125]
结合本公开的实施例,根据所述唤醒语音判别模型在训练过程中的召回率确定所述预设阈值,可以保证尽可能多的人声都能被正确判定通过,在尽量不影响准确判断人声的前提下,检测出更多的电子声,即误唤醒。因为大多数音频文件或视频文件为有损压缩,播放后被转为录制为预设无损格式后得到的语音文件依然存在频谱缺失,因此当判断所述语音信息不满足预设声音质量条件,即存在频谱缺失时,可以判断所述语音信息不是人声。
[0126]
在步骤s14中,响应于判断所述语音信息满足预设声音质量条件,执行所述语音信息对应的操作。
[0127]
本公开实施例中,所述语音信息对应的操作可以是播放智能产品默认的响应词,也可以是用户设置的响应词,本公开实施例对此不做限定。
[0128]
例如,所述语音信息对应的操作可以是播放“听到了”,则响应于判断所述语音信息满足预设声音质量条件,播放“听到了”。
[0129]
值得说明的是,本公开所提供的语音唤醒方法可以应用于智能产品,本公开实施例对智能产品的类型不作具体限定。当该语音唤醒方法可以应用于智能产品时,该智能产品中设置有播放模组用于播放语音,该播放模组可以是语音播放装置。
[0130]
获取语音信息,并从所述语音信息之中提取具有无损格式的至少一个唤醒音频片段特征;将所述至少一个唤醒音频片段特征输入唤醒语音判别模型,以得到所述语音信息的预测分数;根据所述预测分数,判断所述语音信息是否满足预设声音质量条件;响应于判断所述语音信息满足预设声音质量条件,执行所述语音信息对应的操作。通过本公开可以快速、准确的识别语音信息是否是人声,降低误唤醒的概率,提升用户的使用体验。
[0131]
为了使本领域技术人员更好的理解本公开所提供的语音唤醒方法,下面以一个完整的实施例进行描述。
[0132]
在详细描述本方案的语音唤醒方法之前,首先对唤醒语音判别模型的训练方法进行说明。
[0133]
图5是根据一示例性实施例示出的一种唤醒语音判别模型训练方法的流程图。
[0134]
如图5所示,所述唤醒语音判别模型的训练方法可以包括步骤s501至步骤s505。
[0135]
步骤s501,获取音频训练数据集,所述音频训练数据集包括至少一条音频训练样本与对应的样本类别标签。
[0136]
本公开实施例中,当所述音频训练样本为人声时,对应的所述类别标签为第一标签;当所述音频训练样本为电子音时,对应的所述类别标签为第二标签。
[0137]
例如,当所述音频训练样本为人声时,对应的所述类别标签为1;当所述音频训练样本为电子音时,对应的所述类别标签为0。
[0138]
在步骤s502中,根据所述音频训练数据集,得到音频训练特征集,所述音频训练特征集包括音频训练特征与对应的特征类别标签。
[0139]
本公开实施例中,所述根据所述音频训练数据集,得到音频训练特征集包括:
[0140]
对所述音频训练数据集中的每一所述音频训练样本,执行特征提取操作,得到所述音频训练特征集,所述特征提取操作包括:
[0141]
将所述音频训练样本输入频谱特征提取模型;
[0142]
所述频谱特征提取模型根据所述音频训练样本计算所述音频训练样本的音频特征,得到所述音频训练特征;
[0143]
将所述音频训练样本对应的样本类别标签作为所述音频训练特征对应的特征类别标签。
[0144]
本公开实施例中,所述频谱特征提取模型可以是梅尔倒谱系数模型,或快速傅里叶变换模型,或频谱模型,还可以是其他语音特征提取模型,本公开实施例对此不作限制。
[0145]
例如,当所述频谱特征提取模型是梅尔倒谱系数模型时,所述根据所述音频训练数据集,得到音频训练特征集,包括:
[0146]
对所述音频训练数据集中的每一所述音频训练样本,执行特征提取操作,得到所
述音频训练特征集,所述特征提取操作,包括:
[0147]
将所述音频训练样本输入频谱特征提取模型;
[0148]
所述频谱特征提取模型根据所述音频训练样本计算所述音频训练样本的梅尔倒谱系数模型特征,得到所述音频训练特征;
[0149]
将所述音频训练样本对应的样本类别标签作为所述音频训练特征对应的特征类别标签。
[0150]
又例如,当一音频训练样本对应的样本类别标签为1时,与该音频训练样本对应的音频训练特征对应的特征类别标签为1。
[0151]
在步骤s503中,根据所述音频训练特征集,得到音频片段训练特征集,所述音频片段训练特征集包括音频片段训练特征与对应的片段特征类别标签。
[0152]
本公开实施例中,所述根据所述音频训练特征集,得到音频片段训练特征集,包括:
[0153]
对所述音频训练特征集中的每一音频训练特征,执行切分操作,得到所述音频片段训练特征集,所述音频切分操作包括:
[0154]
按照预设时长分割所述音频训练特征,得到至少一个所述音频片段训练特征,每一所述音频片段长度为所述预设时长;
[0155]
将所述音频训练特征对应的所述特征类别标签作为所述音频片段训练特征对应的所述片段特征类别标签。
[0156]
例如,所述预设时长可以是10毫秒,按照10毫秒分割所述音频训练特征,得到至少一个所述音频片段训练特征,每一所述音频片段训练特征的长度为10毫秒。
[0157]
又例如,当一音频训练特征的特征类别标签为1,按照预设时长分割该音频训练特征,得到至少一个音频片段训练特征,因为该音频训练特征的特征类别标签为1,所以分割该音频训练特征得到的至少一个音频片段训练特征的片段特征类别标签是1。
[0158]
结合本公开的实施例,所述根据所述音频训练特征集,得到音频片段训练特征集,可以降低模型的复杂度,保证模型响应的实时性,从而提高用户的使用体验。
[0159]
在步骤s504中,根据所述音频片段训练特征集训练唤醒语音训练模型,得到唤醒语音判别模型,所述语音训练模型包括至少两层时延神经网络与一层归一化模型。
[0160]
本公开实施例中,所述根据所述音频片段训练特征集训练唤醒语音训练模型,得到唤醒语音判别模型,包括:
[0161]
获取训练停止条件;
[0162]
根据所述音频片段训练特征集对所述唤醒语音训练模型执行训练操作,当满足上述损失训练停止条件时,得到所述唤醒语音判别模型,所述训练操作包括:
[0163]
根据所述音频片段训练特征集中的音频片段训练特征与所述唤醒语音训练模型,得到对应的训练预测分数;
[0164]
根据所述音频片段训练特征集中的所述音频片段训练特征对应的所述训练预测分数、所述音频片段训练特征对应的所述片段类别标签,得到训练损失函数;
[0165]
根据所述训练损失函数,调整所述唤醒语音训练模型的参数。
[0166]
本公开实施例中,所述根据所述音频片段训练特征集中的音频片段训练特征与所述唤醒语音训练模型,得到对应的训练预测分数,包括:
[0167]
对所述音频片段训练特征集中的每一音频片段训练特征,执行预设训练预测操作,得到对应的训练预测分数,所述预设预测操作包括:
[0168]
将所述音频片段训练特征与第一训练上下文特征输入所述唤醒语音训练模型的第一训练时延神经网络,以得到第一训练音频向量,其中,所述音频片段训练特征与所述第一训练上下文特征相邻;
[0169]
将所述第一训练音频向量与第二训练上下文向量输入所述唤醒语音训练模型的第二训练时延神经网络,以得到第二训练音频向量,其中,所述第一训练音频向量与所述第二训练上下文向量相邻;
[0170]
将所述第二训练音频向量输入所述唤醒语音训练模型的所述归一化模型,以得到所述音频片段训练特征的训练预测分数。
[0171]
结合本公开的实施例,使用时延神经网络,可以表达语音特征在时间上的关系,提高判断的准确率。
[0172]
结合本公开的实施例,因为邻近时域的音频特征上下文信息相似度较高,将所述音频片段训练特征与所述音频片段训练特征相关联的第一训练上下文特征输入所述唤醒语音训练模型的第一训练时延神经网络,以得到第一训练音频向量,可以减少输入第二训练时延神经网络的数据量,同时获得与将音频片段训练特征输入第二训练时延神经网络模型近似的效果,提升判断的速度,提高用户的使用体验。
[0173]
本公开实施例中,所述第一训练上下文特征包括所述音频片段训练特征的第一预设数量个训练上文特征与第二预设数量个训练下文特征;所述第二训练上下文向量包括所述第一训练音频向量的第三预设数量个训练上文向量与第四预设数量个训练下文向量,其中,所述第三预设数量与所述第四预设数量根据向量长度阈值设置,且所述第三预设数量大于所述第四预设数量。
[0174]
结合本公开的实施例,使得所述第一训练音频向量的长度与所述第二训练上下文向量输入的长度的和大于向量长度阈值可以保证较多的上下文输入,提高判断的准确率。使得所述第三预设数量大于所述第四预设数量可以降低时延,提高判断的准确率。
[0175]
本公开实施例中,对所述第一预设数量和所述第二预设数量不做限定。
[0176]
在本公开的较优实施例中,所述第一预设数量与所述第二预设数量均小于所述第四预设数量,且所述第一预设数量等于所述第二预设数量。
[0177]
本公开实施例中,当所述音频片段训练特征的训练上文特征长度小于所述第一预设数量时,按第一预设填充值对所述音频片段训练特征的训练上文特征进行填充,得到所述音频片段训练特征的第一预设数量个训练上文特征。
[0178]
本公开实施例中,当所述音频片段训练特征的训练下文特征长度小于所述第二预设数量时,按第二预设填充值对所述音频片段训练特征的训练下文特征进行填充,得到所述音频片段训练特征的第二预设数量个训练下文特征。
[0179]
本公开实施例中,当所述第一训练音频向量的训练上文向量长度小于所述第三预设数量时,按第三预设填充值对所述第一训练音频向量的训练上文向量进行填充,得到所述第一训练音频向量的第三预设数量个训练上文向量。
[0180]
本公开实施例中,当所述第一训练音频向量的训练下文向量长度小于所述第四预设数量时,按第四预设填充值对所述第一训练音频向量的训练下文向量进行填充,得到所
述第一训练音频向量的第四预设数量个训练下文向量。
[0181]
本公开实施例中,所述第一预设填充值、所述第二预设填充值、所述第三预设填充值、所述第四预设填充值分别可以是0,或任意固定值,或所述音频片段训练特征或第一训练音频向量的值,或使用缺失值填充方法确定的数值,例如,拉格朗日插值法确定的数值。
[0182]
例如,当所述第一预设数量是3,所述第二预设数量是3,所述第三预设数量是28,所述第四预设数量是6,所述向量长度阈值是30时:
[0183]
对所述音频片段训练特征集中的每一音频片段训练特征,执行预设训练预测操作,得到对应的训练预测分数,所述预设预测操作包括:
[0184]
将所述音频片段训练特征与所述音频片段训练特征相关联的第一训练上下文特征输入所述唤醒语音训练模型的第一训练时延神经网络,以得到第一训练音频向量,所述音频片段训练特征的第一训练上下文特征包括所述音频片段训练特征的3个训练上文特征与3个训练下文特征;
[0185]
将所述第一训练音频向量与所述第一训练音频向量的第二上下文向量输入所述唤醒语音训练模型的第二训练时延神经网络,得到第二训练音频向量,所述第一训练音频向量的第二上下文向量包括所述第一训练音频向量的28个训练上文向量与6个训练下文向量;
[0186]
将所述第二训练音频向量输入所述唤醒语音训练模型的所述归一化模型,以得到所述音频片段训练特征的训练预测分数。
[0187]
本公开实施例中,所述归一化模型用于将所述第二训练音频向量线性变换到[0,1]区间内。例如,所述归一化模型可以是归一化指数函数(softmax)模型,也可以是其他归一化函数模型,本公开不做限制。
[0188]
本公开实施例中,所述训练损失函数用于估量所述唤醒语音训练模型对所述音频片段训练特征的预测值与所述音频片段训练特征对应的片段特征类别标签的不一致程度。例如,所述训练损失函数可以是交叉熵函数,也可以是均方差函数,本公开不做限制。
[0189]
本公开实施例中,所述根据所述训练损失函数,调整所述唤醒语音训练模型的参数,包括:
[0190]
根据所述训练损失函数,调整所述第一训练时延神经网络的参数;或
[0191]
根据所述训练损失函数,调整所述第二训练时延神经网络的参数。
[0192]
本公开实施例中,所述训练停止条件包括:
[0193]
执行所述训练操作的次数达到预设迭代次数;或
[0194]
所述训练损失函数收敛。
[0195]
例如,当训练停止条件是执行所述训练操作的次数达到预设迭代次数,且所述预设迭代次数为10时,则当执行上述训练操作的次数达到10次时,停止所述训练操作,得到唤醒语音判别模型。
[0196]
s505,根据所述唤醒语音判别模型确定预设阈值。
[0197]
本公开实施例中,所述根据所述唤醒语音判别模型确定预设阈值,包括:
[0198]
根据所述唤醒语音判别模型在所述音频片段训练特征集上的召回率确定所述预设阈值。
[0199]
结合本公开的实施例,根据唤醒语音判别模型在训练过程中的召回率确定预设阈
值,可以保证尽可能多的人声都能被正确判定通过,在尽量不影响准确判断人声的前提下,检测出更多的误唤醒。
[0200]
在得到唤醒语音判别模型,将所述唤醒语音判别模型用于语音唤醒方法,所述语音唤醒方法的过程如步骤s11-步骤s15所述。
[0201]
本公开还提供一种语音唤醒装置,所述语音唤醒装置包括:
[0202]
处理器;
[0203]
用于存储处理器可执行指令的存储器;
[0204]
其中,所述处理器被配置为执行所述语音唤醒方法。
[0205]
本公开还提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开提供的语音唤醒方法的步骤。
[0206]
图6是根据一示例性实施例示出的一种语音唤醒装置的示意图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
[0207]
参照图6,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电力组件806,多媒体组件808,音频组件810,输入/输出(i/o)的接口812,传感器组件814,以及通信组件816。
[0208]
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成基于语音唤醒方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的唤醒。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的唤醒。
[0209]
存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
[0210]
电力组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
[0211]
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
[0212]
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(mic),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配
置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
[0213]
i/o接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
[0214]
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到装置800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
[0215]
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如wifi,2g或3g,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。
[0216]
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行语音唤醒方法。
[0217]
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成语音唤醒方法。例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
[0218]
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的语音唤醒方法的代码部分。
[0219]
图7是根据一示例性实施例示出的一种语音唤醒装置1900的示意图。例如,装置1900可以被提供为一服务器。参照图7,装置1900包括处理组件1922,其进一步包括一个或多个处理器,以及由存储器1932所代表的存储器资源,用于存储可由处理组件1922的执行的指令,例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1922被配置为执行指令,以执行语音唤醒方法。
[0220]
装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理,一个有线或无线网络接口1950被配置为将装置1900连接到网络,和一个输入输出(i/o)接口1958。装置1900可以操作基于存储在存储器1932的操作系统,例如windows server
tm
,mac os x
tm
,unix
tm
,linux
tm
,freebsd
tm
或类似。
[0221]
本领域技术人员在考虑说明书及实践本公开后,将容易想到本公开的其它实施方
案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
[0222]
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

技术特征:


1.一种语音唤醒方法,其特征在于,包括:获取语音信息,并从所述语音信息之中提取具有无损格式的至少一个唤醒音频片段特征;将所述至少一个唤醒音频片段特征输入唤醒语音判别模型,以得到用于表征所述语音信息的声音质量的预测分数;根据所述预测分数,判断所述语音信息是否满足预设声音质量条件;响应于判断所述语音信息满足预设声音质量条件,执行所述语音信息对应的操作。2.如权利要求1所述的方法,其特征在于,所述唤醒语音判别模型包括至少两层时延神经网络和一层归一化模型。3.如权利要求1所述的方法,其特征在于,所述从所述语音信息之中提取具有无损格式的至少一个唤醒音频片段特征,包括:将获取到的所述语音信息转换为预设无损格式,得到所述语音文件;检测所述语音文件中是否包含预设语句;响应于检测所述语音文件中包含预设语句,获取所述预设语句对应的音频,得到唤醒音频;根据所述唤醒音频,得到所述唤醒音频特征;根据所述唤醒音频特征,得到所述至少一个唤醒音频片段特征。4.如权利要求3所述的语音唤醒方法,其特征在于,所述根据所述唤醒音频特征,得到所述至少一个唤醒音频片段特征,包括:按照预设时长分割所述唤醒音频特征,以得到所述至少一个唤醒音频片段特征,其中,每一所述唤醒音频片段特征的长度为所述预设时长。5.如权利要求1所述的语音唤醒方法,其特征在于,所述将所述至少一个唤醒音频片段特征输入唤醒语音判别模型,以得到用于表征所述语音信息的声音质量的预测分数,包括:根据所述至少一个唤醒音频片段特征与所述唤醒语音判别模型,得到至少一个音频特征分数;根据所述至少一个音频特征分数,按预设公式计算得到以得到用于表征所述语音信息的声音质量的预测分数。6.如权利要求5所述的语音唤醒方法,其特征在于,所述根据所述至少一个唤醒音频片段特征与所述唤醒语音判别模型,得到至少一个音频特征分数,包括:对所述至少一个唤醒音频片段特征中的每一个所述唤醒音频片段特征,执行预设预测操作,得到至少一个音频特征分数,所述预设预测操作包括:将所述唤醒音频片段特征与第一上下文特征,输入所述唤醒语音判别模型的第一时延神经网络,以得到第一唤醒音频向量,其中,所述唤醒音频片段特征与所述第一上下文特征相邻;将所述第一唤醒音频向量与第二上下文向量,输入所述唤醒语音判别模型的第二时延神经网络,以得到第二唤醒音频向量,其中,所述第一唤醒音频向量与所述第二上下文向量相邻;将所述第二唤醒音频向量输入所述唤醒语音判别模型的所述归一化模型,得到所述唤醒音频片段特征的音频特征分数。
7.如权利要求6所述的语音唤醒方法,其特征在于,所述第一上下文特征包括所述唤醒音频片段特征的第一预设数量个上文特征与第二预设数量个下文特征;所述第二上下文向量包括所述第一唤醒音频向量的第三预设数量个上文向量与第四预设数量个下文向量,其中,所述第三预设数量与所述第四预设数量根据向量长度阈值设置,且所述第三预设数量大于所述第四预设数量。8.如权利要求1-7任一所述的语音唤醒方法,其特征在于,所述根据所述预测分数,判断所述语音信息是否满足预设声音质量条件,包括:当所述预测分数大于预设阈值时,判断所述语音信息满足预设声音质量条件;和/或当所述预测分数小于或等于所述预设阈值时,判断所述语音信息不满足预设声音质量条件。9.一种语音唤醒装置,其特征在于,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:执行权利要求1-8中任一项所述的语音唤醒方法。10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该程序指令被处理器执行时实现权利要求1-8中任一项所述方法的步骤。

技术总结


本公开涉及一种语音唤醒方法,包括:获取语音信息,并从所述语音信息之中提取具有无损格式的至少一个唤醒音频片段特征;将所述至少一个唤醒音频片段特征输入唤醒语音判别模型,以得到所述语音信息的预测分数;根据所述预测分数,判断所述语音信息是否满足预设声音质量条件;响应于判断所述语音信息满足预设声音质量条件,执行所述语音信息对应的操作。通过本公开可以快速、准确的识别语音信息是否是人声,降低误唤醒的概率,提升用户的使用体验。提升用户的使用体验。提升用户的使用体验。


技术研发人员:

王壹丰 杨朔 蔡国都 高鹏 刘勇

受保护的技术使用者:

北京小米松果电子有限公司

技术研发日:

2021.07.15

技术公布日:

2023/1/16


文章投稿或转载声明

本文链接:http://www.wtabcd.cn/zhuanli/patent-1-69779-0.html

来源:专利查询检索下载-实用文体写作网版权所有,转载请保留出处。本站文章发布于 2023-01-22 11:31:27

发表评论

验证码:
用户名: 密码: 匿名发表
评论列表 (有 条评论
2人围观
参与讨论