本文作者:kaifamei

发音纠正方法、装置及电子设备与流程

更新时间:2025-12-27 12:22:20 0条评论

发音纠正方法、装置及电子设备与流程



1.本发明涉及音频处理技术领域,具体涉及发音纠正方法、装置及电子设备。


背景技术:



2.在计算机技术普及之前,口语评测的工作基本是由人工完成的。由于人工测评的局限性,专业人士对口语评测的结果只能给出一个宽泛的评价,学习者通过这种评价无法知道自己的具体发音问题。
3.随着计算机技术的发展,用工具替代人工的方式进行口语评测成为可能。其中,主流的评测方法是基于gop(goodness of pronunciation)算法或其变种。这种方法基于语音识别技术对发音进行建模,从而对每个音素的发音进行打分,一般音素评分方式为:设置一个gop得分阈值,利用gop算法计算目标音素的gop得分,比较gop得分和阈值的大小关系,以此来判断用户是否发音准确。
4.然而,上述基于gop算法的评测方法只能给出待测音素发音正确与否,而难以表征待测音素与标准音素之间的相似程度,因此很难有针对性地进行发音纠正,从而导致发音纠正的效率较低。


技术实现要素:



5.有鉴于此,本发明实施例提供了一种发音纠正方法、装置及电子设备,以解决发音纠正的效率较低的问题。
6.根据第一方面,本发明实施例提供了一种发音纠正方法,包括:
7.获取待测音频中各个音素的gop得分值以及获取划分阈值;
8.将所述各个音素的gop得分值与所述划分阈值进行比较,确定所述各个音素所属的发音区间;
9.根据所述各个音素所属的发音区间,将所述各个音素的gop得分值转换为发音相似度,所述发音相似度用于表示所述音素与标准音素之间相似程度;
10.基于所述发音相似度对所述音素的发音进行纠正。
11.本发明实施例提供的发音纠正方法,通过将各个音素的gop得分值与划分阈值进行比较确定出各个音素所属的发音区间,再在所述的发音区间内将gop得分值转换为发音相似度;即,在不同的发音区间对gop得分值进行转换,可以保证了转换后的发音相似度的准确性,且再利用该发音相似度对音素的发音进行纠正,从而可以实现有针对性地对音素的发音进行纠正,提高了发音纠正的效率。
12.结合第一方面,在第一方面第一实施方式中,所述获取划分阈值,包括:
13.获取发音语料库,所述发音语料库中包括有标准发音音频与对应的标注文本;
14.利用所述标准发音音频与对应的标注文本,计算所述发音语料库中各个音素的第一gop得分值;
15.获取预设文本,并将所述标准文本替换为所述预设文本;
16.利用所述标准发音音频与所述预设文本,计算各个音素的第二gop得分值;
17.基于所述第一gop得分值的统计值以及所述第二gop得分值的统计值,确定所述划分阈值。
18.本发明实施例提供的发音纠正方法,利用标准发音音频与标注文本计算得到的第一gop得分值是属于发音准确的范畴,利用预设文本替换掉标注文本所计算得到的第二gop得分值是属于发音不准确的范畴,再利用两者的统计值确定出划分阈值,保证了划分阈值确定的准确性。
19.结合第一方面第一实施方式,在第一方面第二实施方式中,所述划分阈值包括第一划分阈值与第二划分阈值,所述基于所述第一gop得分值的统计值以及所述第二gop得分值的统计值,确定所述划分阈值,包括:
20.利用各个音素的第一gop得分值,计算第一gop得分均值和第一gop得分均方差;
21.对所述第一gop得分均值与所述第二gop得分均方差进行线性处理,得到所述第一划分阈值;
22.利用各个音素的第二gop得分值,计算第二gop得分均值和第二gop得分均方差;
23.对所述第二gop得分均值与所述第二gop得分均方差进行线性处理,得到所述第二划分阈值。
24.本发明实施例提供的发音纠正方法,利用得分均值与得分均方差进行线性计算得到划分阈值,可以在简化计算的前提下得到划分阈值,减少了数据处理量,提高了发音纠正的效率。
25.结合第一方面第二实施方式,在第一方面第三实施方式中,采用如下公式计算所述第一划分阈值以及所述第二划分阈值:
26.m=μ1+α1σ1+β1,
27.n=μ2+α2σ2+β2,
28.其中,m为所述第一划分阈值,μ1为所述第一gop得分均值,σ1为所述第一得分均方差,n为所述第二划分阈值,μ2为所述第二gop得分均值,σ2为所述第二得分均方差,α1、β1、α2以及β2均为预设经验常数。
29.结合第一方面,或第一方面第一实施方式至第三实施方式中任一项,在第一方面第四实施方式中,所述划分阈值包括第一划分阈值以及第二划分阈值,所述根据所述各个音素所属的发音区间,将所述各个音素的gop得分值转换为发音相似度,包括:
30.当所述音素的gop得分值大于所述第一划分阈值且小于等于零时,利用所述音素的gop得分值进行余弦计算,确定所述音素的发音相似度;
31.当所述音素的gop得分值小于所述第一划分阈值且大于或等于所述第二划分阈值时,利用所述音素的gop得分值进行线性计算,确定所述音素的发音相似度;
32.当所述音素的gop得分值小于所述第二划分阈值时,利用所述音素的gop得分值进行指数计算,确定所述音素的发音相似度。
33.本发明实施例提供的发音纠正方法,利用余弦函数能够减少gop得分小范围变化对音素得分评估的扰动,避免了在待测发音接近标准发音时,可能会出现的音素评估得分变化较大而失真的现象;同时这样设计还能避免为不同音素单独设计映射函数的需求,提高发音纠正的简洁度。
34.结合第一方面第四实施方式,在第一方面第五实施方式中,采用如下公式计算所述发音相似度:
[0035][0036]
其中,p为所述音素,m为所述第一划分阈值,n为所述第二划分阈值,a、b、c、d以及e均为常数。
[0037]
结合第一方面,在第一方面第六实施方式中,所述基于所述发音相似度对所述音素的发音进行纠正,包括:
[0038]
基于所述发音相似度确定纠正措施,以对所述音素的发音进行纠正。
[0039]
本发明实施例提供的发音纠正方法,针对不同的发音相似度给出不同的纠正措施,实现有针对性地对发音进行纠正,保证了发音纠正的效率。
[0040]
根据第二方面,本发明实施例还提供了一种发音纠正装置,包括:
[0041]
阈值划分模块,用于获取待测音频中各个音素的gop得分值以及获取划分阈值;
[0042]
区间匹配模块,用于将所述各个音素的gop得分值与所述划分阈值进行比较,确定所述各个音素所属的发音区间;
[0043]
得分转换模块,用于根据所述各个音素所属的发音区间,将所述各个音素的gop得分值转换为发音相似度,所述发音相似度用于表示所述音素与标准音素之间相似程度;
[0044]
发音纠正模块,用于基于所述发音相似度对所述音素的发音进行纠正。
[0045]
本发明实施例提供的发音纠正装置,通过将各个音素的gop得分值与划分阈值进行比较确定出各个音素所属的发音区间,再在所述的发音区间内将gop得分值转换为发音相似度;即,在不同的发音区间对gop得分值进行转换,可以保证了转换后的发音相似度的准确性,且再利用该发音相似度对音素的发音进行纠正,从而可以实现有针对性地对音素的发音进行纠正,提高了发音纠正的效率。
[0046]
根据第三方面,本发明实施例提供了一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面或者第一方面的任意一种实施方式中所述的发音纠正方法。
[0047]
根据第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行第一方面或者第一方面的任意一种实施方式中所述的发音纠正方法。
附图说明
[0048]
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0049]
图1是根据本发明实施例的发音纠正方法的流程图;
[0050]
图2是根据本发明实施例的发音纠正方法的流程图;
[0051]
图3是根据本发明实施例的发音纠正方法的流程图;
[0052]
图4是根据本发明实施例的发音纠正装置的结构框图;
[0053]
图5是本发明实施例提供的电子设备的硬件结构示意图。
具体实施方式
[0054]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0055]
根据本发明实施例,提供了一种发音纠正方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0056]
在本实施例中提供了一种发音纠正方法,可用于电子设备,如电脑、手机、平板电脑等,图1是根据本发明实施例的发音纠正方法的流程图,如图1所示,该流程包括如下步骤:
[0057]
s11,获取待测音频中各个音素的gop得分值以及获取划分阈值。
[0058]
对于待测音频中各个音素的gop得分值可以是电子设备计算得到的,也可以是电子设备从外界获取到的,在此对其并不做任何限制。
[0059]
其中,以电子设备计算得到各个音素的gop得分值为例,电子设备获取到待测音频,先对待测音频进行声学特征抽取,再在抽取到的声学特征的基础上对各个音素进行gop得分值的计算。
[0060]
具体地,电子设备可以先将待测音频就进行分帧加窗、预加重等操作后,再通过相应的计算公式可以求得待测音频的声学特征mfcc(梅尔频谱倒谱)和ivector(说话人特征)。
[0061]
电子设备通过上一步得到的声学特征可以计算各个音素的对数似然值,再通过声学模型的强制对齐模块,可得到字音对齐的映射关系。进一步地,基于音素的对数似然值和音频帧的字音对其关系,通过gop计算公式就可以得到待测音频中各个音素的gop得分。
[0062]
gop计算公式如下所示:
[0063][0064][0065]
式中,llp表示音素对数后验概率,p表示待测音素,q表示标准音素。
[0066]
需要说明的是,上述过程仅仅是计算gop得分值的一种示例,也可以采用其他方式进行gop得分值的计算,在此对其并不做任何限制。
[0067]
所述的划分阈值可以是人为给定的,也可以是通过对历史数据统计分析得到的。该划分阈值用于将gop得分值进行结果划分,例如,设置2个划分阈值,就可以划分得到3个区间,分别为发音标准、发音不规范以及发音不标准;或者,设置多个划分阈值。其中,划分阈值设置越多,对gop得分值的划分就越细,所得到的相似度就越准确,而划分越细对应的
数据处理量就越大,因此,在实际划分过程中需要结合实际情况进行。
[0068]
关于该步骤具体将在下文中进行详细描述。
[0069]
s12,将各个音素的gop得分值与划分阈值进行比较,确定各个音素所属的发音区间。
[0070]
电子设备在上述s11中获取到的各个音素的gop得分值之后,将gop得分值与划分阈值进行大小比较,就可以确定出各个音素所属的发音区间。其中发音区间的确定是为了后续将gop得分值转换为相似度,不同的发音区间所采用的转换方式不同。
[0071]
s13,根据各个音素所属的发音区间,将各个音素的gop得分值转换为发音相似度。
[0072]
其中,所述发音相似度用于表示音素与标准音素之间相似程度。
[0073]
如上文所述,发音区间的不同,电子设备所采用的转换方式不同,例如,在靠近标准发音时,所采用的转换方式应该要尽量避免失真,避免所转换得到的相似度变化较大;在远离标准发音时,所采用的转换方式可以是使得相似度的变化较大,以更好地表征发音的错误。例如,对于靠近标准发音的音素,可以采用变化率较小的函数进行转换;对于远离标准发音的音素,可以采用变化率较大的函数进行转换。
[0074]
电子设备可以是在确定出待测音频中所有音素的发音区间之后,再将其gop得分值转换为发音相似度;也可以是确定出一个或多个音素的发音区间之后,进行发音相似度的转换而不必等到所有音素的发音区间均确定。
[0075]
关于该步骤具体将在下文中进行详细描述。
[0076]
s14,基于发音相似度对音素的发音进行纠正。
[0077]
电子设备在确定出各个音素的相似度之后,可以针对各个音素给出纠正措施,所述的纠正措施可以是事先存储在电子设备中的。电子设备利用计算得到的发音相似度在纠正措施库中进行搜索,确定与该相似度对应的纠正措施等等。
[0078]
针对不同的发音相似度给出不同的纠正措施,实现有针对性地对发音进行纠正,保证了发音纠正的效率。
[0079]
本实施例提供的发音纠正方法,通过将各个音素的gop得分值与划分阈值进行比较确定出各个音素所属的发音区间,再在所述的发音区间内将gop得分值转换为发音相似度;即,在不同的发音区间对gop得分值进行转换,可以保证了转换后的发音相似度的准确性,且再利用该发音相似度对音素的发音进行纠正,从而可以实现有针对性地对音素的发音进行纠正,提高了发音纠正的效率。
[0080]
在本实施例中提供了一种发音纠正方法,可用于电子设备,如电脑、手机、平板电脑等,图2是根据本发明实施例的发音纠正方法的流程图,如图2所示,该流程包括如下步骤:
[0081]
s21,获取待测音频中各个音素的gop得分值以及获取划分阈值。
[0082]
具体地,上述s21可以包括:
[0083]
s211,获取待测音频中各个音素的gop得分值。
[0084]
关于gop得分值的获取方式可以参见图1所示实施例的s11,在此不再赘述。
[0085]
进一步地,下述的s212-s216用于描述获取划分阈值的过程。在该实施例中,以划分阈值为电子设备对数据进行统计分析得到的为例进行描述的。
[0086]
s212,获取发音语料库。
[0087]
其中,所述发音语料库中包括有标准发音音频与对应的标注文本。
[0088]
在发音语料库中收集有若干标准发音音频,以及各个标准发音音频对应的标注文本。在此对标注文本的标注方式并不做任何限定,具体可以根据实际情况进行相应的设置。
[0089]
s213,利用标准发音音频与对应的标注文本,计算发音语料库中各个音素的第一gop得分值。
[0090]
电子设备可以利用上述s11中所述的gop得分值的计算方式,对发音语料库中各个音素进行第一gop得分值的计算。此处计算得到的第一gop得分值可以认为是属于标准音素的gop得分值。
[0091]
s214,获取预设文本,并将标准文本替换为预设文本。
[0092]
上文所述的标注文本是与标准发音音频一一对应的,此处获取到的预设文本应包含所测语言音素集内的全部音素,可以是人为给定的文本由音素集内音素拼接而成的文本,也可以是电子设备随机生成的文本,该文本与标准发音音频之间并无对应关系。
[0093]
电子设备在获取到预设文本之后,将与标准发音音频对应的标准文本替换为预设文本,即建立标准发音音频与预设文本的对应关系。
[0094]
s215,利用标准发音音频与预设文本,计算各个音素的第二gop得分值。
[0095]
电子设备同样可以利用上述s11中所述的gop得分值的计算方式,对标准发音音频与预设文本进行各个音素的第二gop得分值的计算。此处计算得到的第二gop得分值可以认为是可能存在不标准音素的gop得分值。
[0096]
由以上处理,电子设备就可以得到属于标准音素的第一gop得分值,以及可能存在不标准音素的第二gop得分值,后续通过对这两个gop得分值进行统计分析,就可以对整个区间进行划分。
[0097]
s216,基于第一gop得分值的统计值以及第二gop得分值的统计值,确定划分阈值。
[0098]
具体地,音素的gop得分区间为(-∞,0],gop得分数值大小一定程度上反映了待测音素与标准音素的相似度,gop得分越靠近0,待测音素的发音越接近标准音素。因此,电子设备可以对各个音素的第一gop得分值,以及各个音素的第二gop得分值分别进行统计分析,确定出标准音素与不标准音素的阈值。即,得到两个划分阈值,分别为第一划分阈值m与第二划分阈值n。
[0099]
在gop得分区间(-∞,0]上划分两个阈值,靠近0侧的称为第一阈值m,靠近-∞侧的称为第二阈值n,区间(m,0]范围较小,不同音素的标准发音gop得分的统计学均值存在一定波动,但波动范围较小,基本集中在该区间中;区间(-∞,n]范围较大,不同音素的错误发音基本集中在该区间中;剩下的(n,m]区间范围有限,一些发音不规范的发音基本集中在这一区域,且不同发音质量的音素gop得分呈现一定线性规律。
[0100]
在本实施例的一些可选实施方式中,上述s216可以包括:
[0101]
(1)利用各个音素的第一gop得分值,计算第一gop得分均值和第一gop得分均方差。
[0102]
(2)对第一gop得分均值与第二gop得分均方差进行线性处理,得到第一划分阈值。
[0103]
具体地,第一划分阈值m可以采用下述公式表示:
[0104]
m=μ1+α1σ1+β1,
[0105]
其中,m为所述第一划分阈值,μ1为所述第一gop得分均值,σ1为所述第一得分均方
差,α1、β1为预设经验常数。可选地,α1=-1、β1=0。
[0106]
(3)利用各个音素的第二gop得分值,计算第二gop得分均值和第二gop得分均方差。
[0107]
(4)对第二gop得分均值与第二gop得分均方差进行线性处理,得到第二划分阈值。
[0108]
具体地,第二划分阈值n可以采用下述公式表示:
[0109]
n=μ2+α2σ2+β2,
[0110]
其中,n为所述第二划分阈值,μ2为所述第二gop得分均值,σ2为所述第二得分均方差,α2以及β2均为预设经验常数。可选地,α2=-1、β2=0。
[0111]
利用得分均值与得分均方差进行线性计算得到划分阈值,可以在简化计算的前提下得到划分阈值,减少了数据处理量,提高了发音纠正的效率。
[0112]
s22,将各个音素的gop得分值与划分阈值进行比较,确定各个音素所属的发音区间。
[0113]
电子设备在计算得到第一划分阈值与第二划分阈值之后,就相当于将整个区间划分为3个区间。电子设备再将各个音素的gop得分值与第一划分阈值以及第二划分阈值进行比较,确定各个音素的gop得分值所属的区间。
[0114]
s23,根据各个音素所属的发音区间,将各个音素的gop得分值转换为发音相似度。
[0115]
其中,所述发音相似度用于表示音素与标准音素之间相似程度。
[0116]
如上文所述,电子设备在计算得到第一划分阈值与第二划分阈值之后,就相当于将整个区间划分为3个区间,相应地,可以利用三段式的分段函数分别作用于这三个区间,将属于各个区间的音素的gop得分映射到音素得分空间,即可计算得到相应的发音相似度。
[0117]
详细请参见图1所示实施例的s13,在此不再赘述。
[0118]
s24,基于发音相似度对音素的发音进行纠正。
[0119]
详细请参见图1所示实施例的s14,在此不再赘述。
[0120]
本实施例提供的发音纠正方法,利用标准发音音频与标注文本计算得到的第一gop得分值是属于发音准确的范畴,利用预设文本替换掉标注文本所计算得到的第二gop得分值是属于发音不准确的范畴,再利用两者的统计值确定出划分阈值,保证了划分阈值确定的准确性。
[0121]
在本实施例中提供了一种发音纠正方法,可用于电子设备,如电脑、手机、平板电脑等,图3是根据本发明实施例的发音纠正方法的流程图,如图3所示,该流程包括如下步骤:
[0122]
s31,获取待测音频中各个音素的gop得分值以及获取划分阈值。
[0123]
详细请参见图2所示实施例的s21,在此不再赘述。
[0124]
s32,将各个音素的gop得分值与划分阈值进行比较,确定各个音素所属的发音区间。
[0125]
详细请参见图2所示实施例的s22,在此不再赘述。
[0126]
s33,根据各个音素所属的发音区间,将各个音素的gop得分值转换为发音相似度。
[0127]
其中,所述发音相似度用于表示音素与标准音素之间相似程度。
[0128]
具体地,上述s33可以包括:
[0129]
s331,当音素的gop得分值大于第一划分阈值且小于等于零时,利用音素的gop得
分值进行余弦计算,确定音素的发音相似度。
[0130]
所述的余弦计算可以是将gop得分值作为余弦函数的参数,得到余弦计算的结果,可以直接将余弦计算的结果确定为音素的发音相似度;也可以在此基础上结合其他参数计算,等等。
[0131]
s332,当音素的gop得分值小于第一划分阈值且大于或等于第二划分阈值时,利用音素的gop得分值进行线性计算,确定音素的发音相似度。
[0132]
所述的线性计算可以是将gop得分值作为线性函数的变量,直接计算相应的发音相似度。
[0133]
s333,当音素的gop得分值小于第二划分阈值时,利用音素的gop得分值进行指数计算,确定音素的发音相似度。
[0134]
所述的指数计算可以是将gop得分值作为指数函数的变量,计算相应的梵音相似度。
[0135]
具体地,采用如下公式计算所述发音相似度:
[0136][0137]
其中,p为所述音素,m为所述第一划分阈值,n为所述第二划分阈值,a、b、c、d以及e均为常数。
[0138]
可选地,a、b、c、d以及e的具体数值是通过计算得到的。
[0139]
在本实施例的一些可选实施方式中,可以通过如下方式计算得到a、b、c、d以及e的具体数值。
[0140]
第一划分阈值m用来划分标准发音和带口音发音的音素gop得分区间,第二划分阈值n用来划分带口音发音和错误发音的音素gop得分区间;gop(p)为通过gop公式求得的待测音素p的gop得分。
[0141]
在实际应用场景中需预先确定音素得分的区间范围和判别标准,比如将音素得分映射到[0,1.0]的概率空间,根据人们日常认知习惯,设定音素得分落在0.5以下区间的待测音素为错误发音;音素得分落在0.9以上区间的待测音素为标准发音,音素得分落在在(0.5,0.9)区间的待测音素为带口音发音,这样经公式转换后的音素得分就能比较直观的反映音素发音的好坏程度。令gop(p)分别取0,m和n,代入上述公式score(p)中:
[0142][0143]
通过上式可计算得到a、b、c、d、e的值;将取得的a、b、c、d、e、m、n回带入score(p)即可用来进行得分转换。
[0144]
s34,基于发音相似度对音素的发音进行纠正。
[0145]
详细请参见图2所示实施例的s24,在此不再赘述。
[0146]
本实施例提供的发音纠正方法,利用余弦函数能够减少gop得分小范围变化对音
素得分评估的扰动,避免了在待测发音接近标准发音时,可能会出现的音素评估得分变化较大而失真的现象;同时这样设计还能避免为不同音素单独设计映射函数的需求,提高发音纠正的简洁度。
[0147]
在本实施例中还提供了一种发音纠正装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
[0148]
本实施例提供一种发音纠正装置,如图4所示,包括:
[0149]
阈值划分模块41,用于获取待测音频中各个音素的gop得分值以及获取划分阈值;
[0150]
区间匹配模块42,用于将所述各个音素的gop得分值与所述划分阈值进行比较,确定所述各个音素所属的发音区间;
[0151]
得分转换模块43,用于根据所述各个音素所属的发音区间,将所述各个音素的gop得分值转换为发音相似度,所述发音相似度用于表示所述音素与标准音素之间相似程度;
[0152]
发音纠正模块44,用于基于所述发音相似度对所述音素的发音进行纠正。
[0153]
本实施例提供的发音纠正装置,通过将各个音素的gop得分值与划分阈值进行比较确定出各个音素所属的发音区间,再在所述的发音区间内将gop得分值转换为发音相似度;即,在不同的发音区间对gop得分值进行转换,可以保证了转换后的发音相似度的准确性,且再利用该发音相似度对音素的发音进行纠正,从而可以实现有针对性地对音素的发音进行纠正,提高了发音纠正的效率。
[0154]
本实施例中的发音纠正装置是以功能单元的形式来呈现,这里的单元是指asic电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
[0155]
上述各个模块的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
[0156]
本发明实施例还提供一种电子设备,具有上述图4所示的发音纠正装置。
[0157]
请参阅图5,图5是本发明可选实施例提供的一种电子设备的结构示意图,如图5所示,该电子设备可以包括:至少一个处理器51,例如cpu(central processing unit,中央处理器),至少一个通信接口53,存储器54,至少一个通信总线52。其中,通信总线52用于实现这些组件之间的连接通信。其中,通信接口53可以包括显示屏(display)、键盘(keyboard),可选通信接口53还可以包括标准的有线接口、无线接口。存储器54可以是高速ram存储器(random access memory,易挥发性随机存取存储器),也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器54可选的还可以是至少一个位于远离前述处理器51的存储装置。其中处理器51可以结合图4所描述的装置,存储器54中存储应用程序,且处理器51调用存储器54中存储的程序代码,以用于执行上述任一方法步骤。
[0158]
其中,通信总线52可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。通信总线52可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0159]
其中,存储器54可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:ram);存储器也可以包括非易失性存储器(英
文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard disk drive,缩写:hdd)或固态硬盘(英文:solid-state drive,缩写:ssd);存储器54还可以包括上述种类的存储器的组合。
[0160]
其中,处理器51可以是中央处理器(英文:central processing unit,缩写:cpu),网络处理器(英文:network processor,缩写:np)或者cpu和np的组合。
[0161]
其中,处理器51还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:asic),可编程逻辑器件(英文:programmable logic device,缩写:pld)或其组合。上述pld可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:cpld),现场可编程逻辑门阵列(英文:field-programmable gate array,缩写:fpga),通用阵列逻辑(英文:generic array logic,缩写:gal)或其任意组合。
[0162]
可选地,存储器54还用于存储程序指令。处理器51可以调用程序指令,实现如本技术图1至3实施例中所示的发音纠正方法。
[0163]
本发明实施例还提供了一种非暂态计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的发音纠正方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)、随机存储记忆体(random access memory,ram)、快闪存储器(flash memory)、硬盘(hard disk drive,缩写:hdd)或固态硬盘(solid-state drive,ssd)等;所述存储介质还可以包括上述种类的存储器的组合。
[0164]
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

技术特征:


1.一种发音纠正方法,其特征在于,包括:获取待测音频中各个音素的gop得分值以及获取划分阈值;将所述各个音素的gop得分值与所述划分阈值进行比较,确定所述各个音素所属的发音区间;根据所述各个音素所属的发音区间,将所述各个音素的gop得分值转换为发音相似度,所述发音相似度用于表示所述音素与标准音素之间相似程度;基于所述发音相似度对所述音素的发音进行纠正。2.根据权利要求1所述的方法,其特征在于,所述获取划分阈值,包括:获取发音语料库,所述发音语料库中包括有标准发音音频与对应的标注文本;利用所述标准发音音频与对应的标注文本,计算所述发音语料库中各个音素的第一gop得分值;获取预设文本,并将所述标准文本替换为所述预设文本;利用所述标准发音音频与所述预设文本,计算各个音素的第二gop得分值;基于所述第一gop得分值的统计值以及所述第二gop得分值的统计值,确定所述划分阈值。3.根据权利要求2所述的方法,其特征在于,所述划分阈值包括第一划分阈值与第二划分阈值,所述基于所述第一gop得分值的统计值以及所述第二gop得分值的统计值,确定所述划分阈值,包括:利用各个音素的第一gop得分值,计算第一gop得分均值和第一gop得分均方差;对所述第一gop得分均值与所述第二gop得分均方差进行线性处理,得到所述第一划分阈值;利用各个音素的第二gop得分值,计算第二gop得分均值和第二gop得分均方差;对所述第二gop得分均值与所述第二gop得分均方差进行线性处理,得到所述第二划分阈值。4.根据权利要求3所述的方法,其特征在于,采用如下公式计算所述第一划分阈值以及所述第二划分阈值:m=μ1+α1σ1+β1n=μ2+α2σ2+β2其中,m为所述第一划分阈值,μ1为所述第一gop得分均值,σ1为所述第一得分均方差,n为所述第二划分阈值,μ2为所述第二gop得分均值,σ2为所述第二得分均方差,α1、β1、α2以及β2均为预设经验常数。5.根据权利要求1-4中任一项所述的方法,其特征在于,所述划分阈值包括第一划分阈值以及第二划分阈值,所述根据所述各个音素所属的发音区间,将所述各个音素的gop得分值转换为发音相似度,包括:当所述音素的gop得分值大于所述第一划分阈值且小于等于零时,利用所述音素的gop得分值进行余弦计算,确定所述音素的发音相似度;当所述音素的gop得分值小于所述第一划分阈值且大于或等于所述第二划分阈值时,利用所述音素的gop得分值进行线性计算,确定所述音素的发音相似度;当所述音素的gop得分值小于所述第二划分阈值时,利用所述音素的gop得分值进行指
数计算,确定所述音素的发音相似度。6.根据权利要求5所述的方法,其特征在于,采用如下公式计算所述发音相似度:其中,p为所述音素,m为所述第一划分阈值,n为所述第二划分阈值,a、b、c、d以及e均为常数。7.根据权利要求1所述的方法,其特征在于,所述基于所述发音相似度对所述音素的发音进行纠正,包括:基于所述发音相似度确定纠正措施,以对所述音素的发音进行纠正。8.一种发音纠正装置,其特征在于,包括:阈值划分模块,用于获取待测音频中各个音素的gop得分值以及获取划分阈值;区间匹配模块,用于将所述各个音素的gop得分值与所述划分阈值进行比较,确定所述各个音素所属的发音区间;得分转换模块,用于根据所述各个音素所属的发音区间,将所述各个音素的gop得分值转换为发音相似度,所述发音相似度用于表示所述音素与标准音素之间相似程度;发音纠正模块,用于基于所述发音相似度对所述音素的发音进行纠正。9.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1-7中任一项所述的发音纠正方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行权利要求1-7中任一项所述的发音纠正方法。

技术总结


本发明音频处理技术领域,具体涉及发音纠正方法、装置及电子设备,所述方法包括获取待测音频中各个音素的GOP得分值以及获取划分阈值;将所述各个音素的GOP得分值与所述划分阈值进行比较,确定所述各个音素所属的发音区间;根据所述各个音素所属的发音区间,将所述各个音素的GOP得分值转换为发音相似度,所述发音相似度用于表示所述音素与标准音素之间相似程度;基于所述发音相似度对所述音素的发音进行纠正。在不同的发音区间对GOP得分值进行转换,可以保证了转换后的发音相似度的准确性,且再利用该发音相似度对音素的发音进行纠正,从而可以实现有针对性地对音素的发音进行纠正,提高了发音纠正的效率。提高了发音纠正的效率。提高了发音纠正的效率。


技术研发人员:

潘劲松 龚科

受保护的技术使用者:

暗物智能科技(广州)有限公司

技术研发日:

2021.03.30

技术公布日:

2022/10/3


文章投稿或转载声明

本文链接:http://www.wtabcd.cn/zhuanli/patent-1-30118-0.html

来源:专利查询检索下载-实用文体写作网版权所有,转载请保留出处。本站文章发布于 2022-12-10 22:40:17

发表评论

验证码:
用户名: 密码: 匿名发表
评论列表 (有 条评论
2人围观
参与讨论