本文作者:kaifamei

确定语音素材等级的方法及装置、非易失性存储介质与流程

更新时间:2025-12-25 21:53:38 0条评论

确定语音素材等级的方法及装置、非易失性存储介质与流程



1.本技术涉及数据处理领域,具体而言,涉及对语音数据的处理,涉及一种确定语音素材等级的方法及装置、非易失性存储介质。


背景技术:



2.在通话内容涉及业务频繁变动的场景下,需要长期进行通话语音识别,将通话语音识别为通话语音文本,并对识别得到的通话语音文本进行标注和纠偏。现有技术中,通常由人工进行通话语音文本进行标注和纠偏,并且,每次都需要对全部的通话语音文本进行标注和纠偏,使得人工标注工作冗余,标注速度低,造成了资源浪费。
3.针对上述的问题,目前尚未提出有效的解决方案。


技术实现要素:



4.本技术实施例提供了一种确定语音素材等级的方法及装置、非易失性存储介质,以至少解决由于现有技术未对语音素材进行分级,需要人工对全部语音文本进行标注造成的标注速度低的技术问题。
5.根据本技术实施例的一个方面,提供了一种确定语音素材等级的方法,包括:获取语音信息,并将语音信息输入转换模块,得到转换结果,其中,转换模块包括多个不同类型的语音识别模型;根据转换结果确定语音信息中的第一类语音信息,其中,第一类语音信息为待确定等级的语音信息;利用语音模型确定第一类语音信息的等级,其中,等级用于表示语音模型转换语音信息的准确度。
6.可选地,多个不同类型的语音识别模型包括:第一语音识别模型和第二语音识别模型;将语音信息输入转换模块,得到转换结果,包括:将语音信息分别输入第一语音识别模型和第二语音识别模型,得到第一识别结果和第二识别结果,其中,第一语音识别模型为对基础场景下语音信息进行识别的模型,第二语音识别模型为对指定业务场景下语音信息进行识别的模型;将第一识别结果和第二识别结果作为转换结果。
7.可选地,根据转换结果确定语音信息中的第一类语音信息,包括:确定第一识别结果的第一置信度和第二识别结果的第二置信度;如果第一置信度小于第二置信度,且第二置信度大于第一预设值,确定第一识别结果对应的语音信息为第一类语音信息,第二识别结果对应的语音信息为第二类语音信息,其中,第二类语音信息为已确定等级的语音信息;如果第一置信度大于第二置信度,且第一置信度大于第一预设值,确定第二识别结果对应的语音信息为第一类语音信息,第一识别结果对应的语音信息为第二类语音信息。
8.可选地,根据转换结果确定语音信息中的第一类语音信息,还包括:如果第一置信度和第二置信度均小于第一预设值,确定第一识别结果对应的语音信息和第二识别结果对应的语音信息共同作为第一类语音信息。
9.可选地,利用语音模型确定第一类语音信息的等级,包括:确定第一类语音信息的困惑度,其中,困惑度用于表示识别第一类语音信息的准确度,困惑度与准确度存在反比例
关系;依据第一类语音信息的困惑度,确定第一类语音信息的等级,其中,困惑度与语音信息的等级存在正比例的关系。
10.可选地,确定第一类语音信息的困惑度,包括:将第一类语音信息输入语音模型,其中,语音模型由语料库训练得到;确定第一类语音信息在语料库中出现的概率和频次,并依据第一类语音信息在语料库中出现的概率和频次,确定第一类语音信息的困惑度。
11.可选地,依据第一类语音信息的困惑度,确定第一类语音信息的等级,包括:将困惑度高于第二预设值且低于第三预设值的第一类语音信息的等级确定为第一等级,其中,第三预设值大于第二预设值;将困惑度高于第三预设值且低于第四预设值的第一类语音信息的等级确定为第二等级,其中,第四预设值大于第三预设值,识别第二等级的语音信息的准确度低于识别第一等级的语音信息的准确度;将困惑度高于第四预设值且低于第五预设值的第一类语音信息的等级确定为第三等级,其中,第五预设值大于第四预设值,识别第三等级的语音信息的准确度低于识别第二等级的语音信息的准确度。
12.可选地,在利用语音模型确定第一类语音信息的等级之后,方法还包括:将第一类语音信息标注其对应的等级信息,得到标注后的第一类语音信息;将标注后的第一类语音信息输入语料库,得到更新后的语料库;利用更新后的语料库训练语音模型。
13.根据本技术实施例的另一方面,还提供了一种确定语音素材等级的装置,包括:获取模块,用于获取语音信息,并将语音信息输入转换模块,得到转换结果,其中,转换模块包括多个不同类型的语音识别模型;确定模块,用于根据转换结果确定语音信息中的第一类语音信息,其中,第一类语音信息为待确定等级的语音信息;分级模块,利用语音模型确定第一类语音信息的等级,其中,等级用于表示语音模型转换语音信息的准确度。
14.根据本技术实施例的另一方面,还提供了一种非易失性存储介质,该非易失性存储介质中存储有程序,在程序运行时控制非易失性存储介质所在设备执行上述的确定语音素材等级的方法。
15.根据本技术实施例的另一方面,还提供了一种电子设备,包括:存储器和处理器,该处理器用于运行存储在存储器中的程序,其中,程序运行时执行上述的确定语音素材等级的方法。
16.在本技术实施例中,采用获取语音信息,并将语音信息输入转换模块,得到转换结果,其中,转换模块包括第一语音识别模型和第二语音识别模型;根据转换结果对语音信息进行分类,得到第一类语音信息,其中,第一类语音信息为待确定等级的语音信息;利用语音模型确定第一类语音信息的等级的方式,通过根据当前语音素材中各字词及其组合在语料库中出现的概率与频次判定其标注等级,达到了自动区分各级语音素材的目的,从而实现了减少人工标注工作冗余,提升标注的目的性,有效完善语音识别引擎的能力,提升语音识别准确率的技术效果,进而解决了由于现有技术未对语音素材进行分级,需要人工对全部语音文本进行标注造成的标注速度低的技术问题。
附图说明
17.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
18.图1是本技术实施例提供的确定语音素材等级的方法的流程图;
19.图2是根据本技术实施例提供的确定语音素材等级的装置的结构图;
20.图3是根据本技术实施例的一种对语音素材进行分级的方法的流程示意图。
具体实施方式
21.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
22.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
23.为了更好地理解本技术实施例,以下将本技术实施例中涉及的技术术语解释如下:
24.置信度:也称为可靠度或置信水平,在抽样对总体参数做出估计时,由于样本的随机性,其结论总是不确定的。因此,采用一种概率的陈述方法,也就是数理统计中的区间估计法,即在允许的误差范围内,估计抽样值与总体参数相应的概率;这个相应的概率称作置信度,表示在允许的误差范围内,抽样值有一定概率落在总体参数的区间内。
25.n-grame模型:语音识别中常用的一种语言模型,其中,将语音识别的结果是中文的n-grame模型称为汉语语言模型(chinese language model,clm)。
26.困惑度:用于衡量语言模型优劣的方法,如果将测试集中的数据作为标准数据,将测试集中的数据输入语言模型,得到语言模型的转写结果,计算转写结果与测试集数据的标准结果一致的概率,该概率即为语言模型的困惑度,其中,概率值越大,困惑度对应的数值越小。
27.分词:语言模型在做文本处理时,在文本的词与词之间自动加上空格或其他边界标记的操作。
28.去停用词:语言模型在做文本处理时,将文本中没有实际意义的词语,如组词“的”,连词“以及”,副词“甚至:等词语去掉的操作。
29.本技术实施例中,通过创建特定场景语料库,结合多个语音识别引擎识别结果,使用自然语言处理技术对语音素材进行分级评定。根据当前语音素材中各字词及其组合在语料库中出现的概率与频次判定其标注等级;系统可根据标注的等级选取对应的语音素材,减少人工标注的资源浪费;同时对于不同级别的语音素材,可通过动态调节标注目标来实现标注效率最大化;从而解决了上述背景技术中提到的问题;以下详细说明。
30.图1是根据本技术实施例提供的确定语音素材等级的方法的流程图,如图1所示,该方法包括如下步骤:
31.步骤s102,获取语音信息,并将语音信息输入转换模块,得到转换结果,其中,转换模块包括多个不同类型的语音识别模型。
32.在步骤s102中,对需要使用语音识别技术的业务,获取与该业务相关的通话内容(即语音信息),将通话内容(即语音信息)输入语言模型的语音识别引擎(即转换模块)中,对语音信息进行识别和转写,得到转写结果(即转换结果),其中,为确保本技术方法的准确率,采用多个语音模型,至少采用两个语音识别模型(即第一语音识别模型和第二语音识别模型)对通话内容(即语音信息)进行转换。
33.步骤s104,根据转换结果确定语音信息中的第一类语音信息,其中,第一类语音信息为待确定等级的语音信息。
34.在步骤s104中,获取在步骤s102中得到的转换结果的置信度,通过对比置信度,将置信度高于设定阈值的转换结果归类为免于标注的转换结果;将置信度低于设定阈值的转换结果归类为待标注的转换结果(即第一类语音信息)。
35.步骤s106,利用语音模型确定第一类语音信息的等级,其中,等级用于表示语音模型转换语音信息的准确度。
36.在步骤s106中,使用语料库n-gram模型,对根据步骤s104提供的方法分类得到的第一类语音信息进行分级,并将第一类语音信息中的字词及其组合标注相应的等级。
37.通过上述步骤,可以实现利用场景化构建的基础语料库和自然语言处理技术,实现对新语音素材的分级评价,并能够依据分级评价结果精准辨别训练样本的有效性,从而针对性的对特定的常错字词进行标注。动态调整各级标注语音素材的标注要求,减少人工标注的工作量,提高标注的工作效率。
38.根据本技术一个可选的实施例,多个不同类型的语音识别模型包括:第一语音识别模型和第二语音识别模型;将语音信息输入转换模块,得到转换结果,包括:将语音信息分别输入第一语音识别模型和第二语音识别模型,得到第一识别结果和第二识别结果,其中,第一语音识别模型为对基础场景下语音信息进行识别的模型,第二语音识别模型为对指定业务场景下语音信息进行识别的模型;将第一识别结果和第二识别结果作为转换结果。
39.在使用本技术方法确定语音素材的等级时,用于转换语音信息的转换模块应至少包括两个语音识别模型,在本实施例中,考虑到语音素材中通常存在常用的基础语言和在特定领域/使用场景专用的场景化语言,转换模块包括通用语音识别模型(即第一语音识别模型)和待优化的场景化语音识别模型(即第二语音识别模型);同时采用通用语音识别模型和待优化语音识别模型对待标注音频(即第一类语音信息)进行转写,分别得到第一转写结果(即第一转换结果)和第二转写结果(即第二转换结果),将第一转写结果和第二转写结果均为待分类的转换结果。
40.根据本技术另一个可选的实施例,根据转换结果确定语音信息中的第一类语音信息,包括:确定第一识别结果的第一置信度和第二识别结果的第二置信度;如果第一置信度小于第二置信度,且第二置信度大于第一预设值,确定第一识别结果对应的语音信息为第一类语音信息,第二识别结果对应的语音信息为第二类语音信息,其中,第二类语音信息为已确定等级的语音信息;如果第一置信度大于第二置信度,且第一置信度大于第一预设值,确定第二识别结果对应的语音信息为第一类语音信息,第一识别结果对应的语音信息为第
二类语音信息。
41.在本实施例中对转换结果进行分类,分类的方法如下:针对使用场景预先设定置信度阈值(即第一预设值),分别确定通用语音识别模型的转写结果的置信度(即第一置信度)和待优化语音识别模型的转写结果的置信度(即第二置信度);通过第一置信度,第二置信度和置信度阈值的对比结果,对置信度低于置信度阈值的转写结果对应的语音信息(即第一类语音信息),将其标记片段写为待标注,代表该语音信息需要进行等级确认;对置信度较高,且高于置信度阈值的转写结果对应的语音信息(即第二类语音信息),将其标记片段写为免标注,代表该语音信息免于人工审核,不需要进行等级确认。
42.根据本技术一些优选的实施例,根据转换结果确定语音信息中的第一类语音信息,还包括:如果第一置信度和第二置信度均小于第一预设值,确定第一识别结果对应的语音信息和第二识别结果对应的语音信息共同作为第一类语音信息。
43.在本技术一些优选的实施例中,如果通用语音识别模型的转写结果的置信度(即第一置信度)和待优化语音识别模型的转写结果的置信度(即第二置信度),均小于预先设定的信度阈值(即第一预设值),则将在步骤s102中得到的转换结果的标记片段均写为待标注,以便后续对其进行等级标注。
44.根据本技术一个可选的实施例,利用语音模型确定第一类语音信息的等级,包括以下步骤:确定第一类语音信息的困惑度,其中,困惑度用于表示识别第一类语音信息的准确度,困惑度与准确度存在反比例关系;依据第一类语音信息的困惑度,确定第一类语音信息的等级,其中,困惑度与语音信息的等级存在正比例的关系。
45.在本实施例中,提供了利用n-gram模型(即语音模型)确定语音素材的等级的方法,该方法包括以下步骤:第一步:计算待标注素材(即第一类语音信息)的困惑度,第二步,根据待标注素材(即第一类语音信息)的困惑度为其标注等级,其中,在计算待标注素材(即第一类语音信息)的困惑度时,语音模型对待标注素材(即第一类语音信息)的转换结果的准确率越高。则待标注素材(即第一类语音信息)的困惑度越低,反之,语音模型对待标注素材(即第一类语音信息)的转换结果的准确率越低。则待标注素材(即第一类语音信息)的困惑度越高;而困惑度越高,对应的语音信息的等级越高,困惑度越低,对应的语音信息的等级越低
46.根据本技术另一个可选的实施例,确定第一类语音信息的困惑度,包括以下步骤:将第一类语音信息输入语音模型,其中,语音模型由语料库训练得到;确定第一类语音信息在语料库中出现的概率和频次,并依据第一类语音信息在语料库中出现的概率和频次,确定第一类语音信息的困惑度。
47.在本实施例中,确定待标注素材(即第一类语音信息)的困惑度的方法如下;使用语言识别领域公认的通用语料库作为基础语料库;对基础语料库分词、去停用词后建立n-gram模型;利用该n-gram模型,对待标注素材(即第一类语音信息)进行困惑度评分,确定其困惑度等级,其中,困惑度越大,表示该待标注素材(即第一类语音信息)中的字词在语料库中出现概率越小。
48.需要说明的是,在针对不同的使用场景建立n-gram模型时,需要对n-gram模型进行训练;用于训练n-gram模型的数据,除上述基础语料库包含的数据外,还包括针对不同使用场景建立的热词表;其中,热词表的创建过程如下:针对指定的使用场景,将该场景下使
用频率高于规定值的词以热词表的形式记录。
49.根据本技术又一个可选的实施例,依据第一类语音信息的困惑度,确定第一类语音信息的等级,包括以下三种情况:将困惑度高于第二预设值且低于第三预设值的第一类语音信息的等级确定为第一等级,其中,第三预设值大于第二预设值;将困惑度高于第三预设值且低于第四预设值的第一类语音信息的等级确定为第二等级,其中,第四预设值大于第三预设值,识别第二等级的语音信息的准确度低于识别第一等级的语音信息的准确度;将困惑度高于第四预设值且低于第五预设值的第一类语音信息的等级确定为第三等级,其中,第五预设值大于第四预设值,识别第三等级的语音信息的准确度低于识别第二等级的语音信息的准确度。
50.在本实施例中,确定待标注素材(即第一类语音信息)的等级的方法如下:设置不同等级对应的困惑度的区间,将语音素材的分为高、中、低三个等级,其中,低等级的待标注素材对应的困惑度的区间的下限值(即第二预设值)最小,小于低等级的待标注素材对应的困惑度的区间的上限值(即第三预设值);中等级的待标注素材对应的困惑度的区间的下限值,大于低等级的待标注素材对应的困惑度的区间的上限值(即第三预设值);高等级的待标注素材对应的困惑度的区间的下限值,大于中等级的待标注素材对应的困惑度的区间的上限值(即第四预设值),同时,高等级的待标注素材(即第一类语音信息)对应的困惑度的区间的下限值,小于高等级的待标注素材(即第一类语音信息)对应的困惑度的区间的上限值(即第五预设值)。并且,语音模型识别高等级的待标注素材的准确度最小,小于语音模型识别中等级的待标注素材的准确度,同时,语音模型识别中等级的待标注素材的准确度,小于语音模型识别低等级的待标注素材的准确度。
51.需要说明的是,在本实施例中,还将上述实施例中分类得到的置信度较高,且高于置信度阈值的转写结果对应的语音信息(即第二类语音信息)的等级标注为“无”。
52.并且在确定了待标注素材(即第一类语音信息)的等级之后,使用语料库n-gram模型对高、中、低等级的字词生成候选字词,作为标注参考,以便在创建标注任务时根据所提取的标注语音素材制定相应的标注要求,定位需要标注的词句,并给出校正参考。
53.根据本技术另一些优选的实施例,在利用语音模型确定第一类语音信息的等级之后,确定语音素材等级的方法还包括:将第一类语音信息标注其对应的等级信息,得到标注后的第一类语音信息;将标注后的第一类语音信息输入语料库,得到更新后的语料库;利用更新后的语料库训练语音模型。
54.在本技术另一些优选的实施例中,在对待标注素材(即第一类语音信息)的进行等级标注之后,还利用其对语料库进行更新,更新的方法如下:将待标注素材(即第一类语音信息)及其对应的等级标注信息绑定,作为新增的场景化标注数输入语料库,并利用其更新n-gram模型。
55.还需要说明的是,更新后语料库将用于训练n-gram模型,得到新的n-gram模型;在计算后续新语音素材的困惑度时,均采用新的n-gram模型。重复上述步骤可迅速减少需要人工标注的语音素材的数据量,并提升语音识别准确率。
56.图2是根据本技术实施例提供的确定语音素材等级的装置的结构图,如图2所示,该装置包括:
57.获取模块20,用于用于获取语音信息,并将语音信息输入转换模块,得到转换结
果,其中,转换模块包括多个不同类型的语音识别模型;
58.确定模块22,用于用于根据转换结果确定语音信息中的第一类语音信息,其中,第一类语音信息为待确定等级的语音信息;
59.分级模块24,分级模块,利用语音模型确定第一类语音信息的等级,其中,等级用于表示语音模型转换语音信息的准确度。
60.在利用本实施例中的确定语音素材等级的装置对语音素材等级标注时,根据该装置执行的功能,将其分为语音识别引擎模块、标注状态分流模块、困惑度分级模块、标注策略制定模块、语料库更新模块和语音识别模型训练模块这六个模块;其中,获取模块20执行语音识别引擎模块的功能;分类模块22执行标注状态分流模块的功能;确定模块24执行困惑度分级模块、标注策略制定模块、语料库更新模块和语音识别模型训练模块的功能。
61.图3对语音素材进行分级的示意图,如图3所示,上述语音识别引擎模块、标注状态分流模块、困惑度分级模块、标注策略制定模块、语料库更新模块和语音识别模型训练模块分别执行以下功能:
62.语音识别引擎模块:该模块至少包含两个语音识别模型,例如:通用语音识别模型和待优化语音识别模型,将待处理语音素材分别用上述两个语音识别模型进行转写,通过比较两个转写结果置信度,选取置信度较高的转写结果送入标注状态分流模块。
63.标注状态分流模块:该模块根据不同场景的需求,设定符合训练场景需求的置信度阈值,将设定置信度阈值作为标注状态筛选分流的依据,判断从语音识别模型模块获取的转写结果是否满足置信度要求;若转写结果置信度高于该阈值,认为该段结果已达到要求(yes),可免于标注;若转写结果低于该阈值,认为该段结果未达到要求(no),进行后续困惑度分级。
64.困惑度分级模块:接收标注状态分流模块的识别结果,基于场景化语料库,将带标注素材(即识别结果)经过分词,去停用词等处理后,使用n-gram模型计算其困惑度并进行分级,将其归属在高、中、低、无其中一档。并对困惑度高于阈值的字词生成近似发音的候选字词,作为标注参考。
65.标注策略制定模块:该模块用于在标注任务创建时,对困惑度分级后的素材依据其分级结果制定对应的标注要求,根据评级定位需要标注的词句,并给出校正参考,以提升标注效率。
66.语料库更新模块:该模块将新增的场景化标注数据放入语料库,实现语料库的不断扩充与完善,同时更新n-gram模型。
67.语音识别模型训练模块:该模块将更新后的语料库用于语音识别模型的训练,达成提升语音识别模型准确率的目标。
68.通过上述模块,通过获取不同转写结果的置信度,实现了根据相似字词的频次差异针对性的发现引擎转写过程中的异常情况的技术效果;基于置信度和置信阈值的对比,实现了对语音素材困惑度分级的技术效果;同时动态调整标注等级,保证语音素材的准确率始终满足语言模型迭代对准确率的需求。
69.需要说明的是,图2所示实施例的优选实施方式可以参见图1所示实施例的相关描述,此处不再赘述。
70.本技术实施例还提供了一种非易失性存储介质,该非易失性存储介质中存储有程
序,在程序运行时控制非易失性存储介质所在设备执行以上的确定语音素材等级的方法。
71.上述非易失性存储介质用于存储执行以下功能的程序:获取语音信息,并将语音信息输入转换模块,得到转换结果,其中,转换模块包括第一语音识别模型和第二语音识别模型;根据转换结果对语音信息进行分类,得到第一类语音信息,其中,第一类语音信息为待确定等级的语音信息;利用语音模型确定第一类语音信息的等级。
72.本技术实施例还提供了一种电子设备,该电子设备包括:存储器和处理器,该处理器用于运行存储在存储器中的程序,其中,程序运行时执行以上的确定语音素材等级的方法。
73.上述处理器用于运行执行以下功能的程序:获取语音信息,并将语音信息输入转换模块,得到转换结果,其中,转换模块包括第一语音识别模型和第二语音识别模型;根据转换结果对语音信息进行分类,得到第一类语音信息,其中,第一类语音信息为待确定等级的语音信息;利用语音模型确定第一类语音信息的等级。
74.上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
75.在本技术的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
76.在本技术所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
77.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
78.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
79.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
80.以上所述仅是本技术的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本技术的保护范围。

技术特征:


1.一种确定语音素材等级的方法,其特征在于,包括:获取语音信息,并将所述语音信息输入转换模块,得到转换结果,其中,所述转换模块包括多个不同类型的语音识别模型;根据所述转换结果确定所述语音信息中的第一类语音信息,其中,所述第一类语音信息为待确定等级的语音信息;利用语音模型确定所述第一类语音信息的等级,其中,所述等级用于表示所述语音模型转换语音信息的准确度。2.根据权利要求1所述的方法,其特征在于,所述多个不同类型的语音识别模型包括:第一语音识别模型和第二语音识别模型;将所述语音信息输入转换模块,得到转换结果,包括:将所述语音信息分别输入所述第一语音识别模型和所述第二语音识别模型,得到第一识别结果和第二识别结果,其中,所述第一语音识别模型为对基础场景下语音信息进行识别的模型,所述第二语音识别模型为对指定业务场景下语音信息进行识别的模型;将所述第一识别结果和所述第二识别结果作为所述转换结果。3.根据权利要求2所述的方法,其特征在于,根据所述转换结果确定所述语音信息中的第一类语音信息,包括:确定所述第一识别结果的第一置信度和所述第二识别结果的第二置信度;如果所述第一置信度小于所述第二置信度,且所述第二置信度大于第一预设值,确定所述第一识别结果对应的语音信息为所述第一类语音信息,所述第二识别结果对应的语音信息为第二类语音信息,其中,所述第二类语音信息为已确定等级的语音信息;如果所述第一置信度大于所述第二置信度,且所述第一置信度大于所述第一预设值,确定所述第二识别结果对应的语音信息为所述第一类语音信息,所述第一识别结果对应的语音信息为所述第二类语音信息。4.根据权利要求3所述的方法,其特征在于,根据所述转换结果确定所述语音信息中的第一类语音信息,还包括:如果所述第一置信度和所述第二置信度均小于所述第一预设值,确定所述第一识别结果对应的语音信息和所述第二识别结果对应的语音信息共同作为所述第一类语音信息。5.根据权利要求1所述的方法,其特征在于,利用语音模型确定所述第一类语音信息的等级,包括:确定所述第一类语音信息的困惑度,其中,所述困惑度用于表示识别所述第一类语音信息的准确度,所述困惑度与所述准确度存在反比例关系;依据所述第一类语音信息的困惑度,确定所述第一类语音信息的等级,其中,所述困惑度与所述语音信息的等级存在正比例的关系。6.根据权利要求5所述的方法,其特征在于,确定所述第一类语音信息的困惑度,包括:将所述第一类语音信息输入所述语音模型,其中,所述语音模型由语料库训练得到;确定所述第一类语音信息在所述语料库中出现的概率和频次,并依据所述第一类语音信息在所述语料库中出现的概率和频次,确定所述第一类语音信息的困惑度。7.根据权利要求6所述的方法,其特征在于,依据所述第一类语音信息的困惑度,确定所述第一类语音信息的等级,包括:
将所述困惑度高于第二预设值且低于第三预设值的第一类语音信息的等级确定为第一等级,其中,所述第三预设值大于所述第二预设值;将所述困惑度高于第三预设值且低于第四预设值的第一类语音信息的等级确定为第二等级,其中,所述第四预设值大于所述第三预设值,识别所述第二等级的语音信息的准确度低于识别所述第一等级的语音信息的准确度;将所述困惑度高于第四预设值且低于第五预设值的第一类语音信息的等级确定为第三等级,其中,所述第五预设值大于所述第四预设值,识别所述第三等级的语音信息的准确度低于识别所述第二等级的语音信息的准确度。8.根据权利要求7所述的方法,其特征在于,在利用语音模型确定所述第一类语音信息的等级之后,所述方法还包括:将所述第一类语音信息标注其对应的等级信息,得到标注后的所述第一类语音信息;将标注后的所述第一类语音信息输入所述语料库,得到更新后的语料库;利用所述更新后的语料库训练所述语音模型。9.一种确定语音素材等级的装置,其特征在于,包括:获取模块,用于获取语音信息,并将所述语音信息输入转换模块,得到转换结果,其中,所述转换模块包括多个不同类型的语音识别模型;确定模块,用于根据所述转换结果确定所述语音信息中的第一类语音信息,其中,所述第一类语音信息为待确定等级的语音信息;分级模块,利用语音模型确定所述第一类语音信息的等级,其中,所述等级用于表示所述语音模型转换语音信息的准确度。10.一种非易失性存储介质,其特征在于,所述非易失性存储介质中存储有程序,其中,在所述程序运行时控制所述非易失性存储介质所在设备执行权利要求1至8中任意一项所述的确定语音素材等级的方法。11.一种电子设备,其特征在于,包括:存储器和处理器,所述处理器用于运行存储在所述存储器中的程序,其中,所述程序运行时执行权利要求1至8中任意一项所述的确定语音素材等级的方法。

技术总结


本申请公开了一种确定语音素材等级的方法及装置、非易失性存储介质。其中,该方法包括:获取语音信息,并将语音信息输入转换模块,得到转换结果,其中,转换模块包括多个不同类型的语音识别模型;根据转换结果确定语音信息中的第一类语音信息,其中,第一类语音信息为待确定等级的语音信息;利用语音模型确定第一类语音信息的等级,其中,等级用于表示语音模型转换语音信息的准确度。本申请解决了由于现有技术未对语音素材进行分级,需要人工对全部语音文本进行标注造成的标注速度低的技术问题。题。题。


技术研发人员:

叶玉婷 张致远 朱云峰 汪潇 何肖嵘 严秋红

受保护的技术使用者:

中国电信股份有限公司

技术研发日:

2022.10.09

技术公布日:

2023/1/12


文章投稿或转载声明

本文链接:http://www.wtabcd.cn/zhuanli/patent-1-73248-0.html

来源:专利查询检索下载-实用文体写作网版权所有,转载请保留出处。本站文章发布于 2023-01-23 21:49:43

发表评论

验证码:
用户名: 密码: 匿名发表
评论列表 (有 条评论
2人围观
参与讨论