本文作者:kaifamei

语音识别的方法和装置与流程

更新时间:2025-12-20 22:58:12 0条评论

语音识别的方法和装置与流程



1.本公开的实施例涉及计算机技术领域,具体涉及语音识别的方法和装置。


背景技术:



2.端到端深度神经网络已成为语音识别领域中的一种流行框架,与传统语音识别框架相比,它可以简化模型的构建和训练流程。在实际应用中,许多场合需要现有的语音识别模型既可以识别新场景下的语音输入,又能够保持原有场景的识别准确率。例如,在原有数据集上训练的语音识别模型,需要加强对新的关键词的识别能力。或者,对于新的语音识别场景的冷启动,需要在继承旧语音识别模型的识别能力的同时,基于一个小的新数据集将该模型适用于新域。由于新的关键词或新场景通常不在过去训练数据集中,因此直接在新任务上使用旧模型时,识别性能会非常不理想。为了解决这个问题,一种可行的方法是混合新旧场景数据集重新训练语音识别模型。但是,该方法可能会遇到训练数据不平衡的问题,因为新数据集通常比旧数据集小得多。同时,出于对数据安全性和隐私性的考虑,过去的数据集可能无法用于训练。另一种方法是使用新场景数据进行迁移学习,这种方法虽然可以减少时间成本,但会导致语音识别模型过拟合的问题。使用热词解码也是一种可行的方式,但是使用热词解码只能在关键词出现在解码路径中时,对该路径进行操作,从而实现关键词召回,当关键词不存在于解码路径中或关键词概率较低时,热词解码方法则无法实现关键词召回。


技术实现要素:



3.本公开的实施例提出了语音识别的方法和装置。
4.第一方面,本公开的实施例提供了一种语音识别的方法,包括:获取待识别的关键词;从原场景训练集中查包含所述关键词的音频组成第一训练集,并获取包含所述关键词且非原场景训练集的音频组成第一测试集;基于所述第一训练集对原场景的第一语音识别模型进行第一轮增量训练,得到第二语音识别模型;使用所述第二语音识别模型对所述第一测试集进行识别,将所述第一测试集中关键词被正确识别的音频加入到所述第一训练集,得到第二训练集和第二测试集;基于所述第二训练集对所述第二语音识别模型进行第二轮增量训练,得到第三语音识别模型;将所述第二测试集输入所述第三语音识别模型,得到初始识别结果。
5.在一些实施例中,所述方法还包括:通过热词解码器对所述初始识别结果进行调整,计算所述关键词的召回率。
6.在一些实施例中,所述将所述第一测试集中关键词被正确识别的音频加入到所述第一训练集,得到第二训练集和第二测试集,包括:通过热词解码器将第二语音识别模型对所述第一测试集进行识别得到的识别结果进行调整;根据调整后的识别结果确定出关键词被正确识别的音频;将确定出的音频加入到所述第一训练集,得到第二训练集;从所述第一训练集中删除确定出的音频,得到第二测试集。
7.在一些实施例中,所述第一训练集中音频的数量大于第一阈值。
8.在一些实施例中,所述方法还包括:若所述原场景训练集中包含所述关键词的音频的数量不大于第一阈值,则录制包含所述关键词的音频加入到所述第一训练集。
9.在一些实施例中,所述第一测试集中音频的数量大于第二阈值。
10.在一些实施例中,所述方法还包括:若所述第一测试集中关键词被全部正确识别或所述第二测试集中音频的数量小于第三阈值,则录制包含所述关键词的音频加入到所述第二测试集。
11.第二方面,本公开的实施例提供了一种语音识别的装置,包括:获取单元,被配置成获取待识别的关键词;组成单元,被配置成从原场景训练集中查包含所述关键词的音频组成第一训练集,并获取包含所述关键词且非原场景训练集的音频组成第一测试集;第一训练单元,被配置成基于所述第一训练集对原场景的第一语音识别模型进行第一轮增量训练,得到第二语音识别模型;识别单元,被配置成使用所述第二语音识别模型对所述第一测试集进行识别,将所述第一测试集中关键词被正确识别的音频加入到所述第一训练集,得到第二训练集和第二测试集;第二训练单元,被配置成基于所述第二训练集对所述第二语音识别模型进行第二轮增量训练,得到第三语音识别模型;输出单元,被配置成将所述第二测试集输入所述第三语音识别模型,得到初始识别结果。
12.在一些实施例中,所述装置还包括计算单元,被配置成:通过热词解码器对所述初始识别结果进行调整,计算所述关键词的召回率。
13.在一些实施例中,所述识别单元进一步被配置成:通过热词解码器将第二语音识别模型对所述第一测试集进行识别得到的识别结果进行调整;根据调整后的识别结果确定出关键词被正确识别的音频;将确定出的音频加入到所述第一训练集,得到第二训练集;从所述第一训练集中删除确定出的音频,得到第二测试集。
14.在一些实施例中,所述第一训练集中音频的数量大于第一阈值。
15.在一些实施例中,所述装置还包括第一录音单元,被配置成:若所述原场景训练集中包含所述关键词的音频的数量不大于第一阈值,则录制包含所述关键词的音频加入到所述第一训练集。
16.在一些实施例中,所述第一测试集中音频的数量大于第二阈值。
17.在一些实施例中,所述装置还包括第二录音单元,被配置成:若所述第一测试集中关键词被全部正确识别或所述第二测试集中音频的数量小于第三阈值,则录制包含所述关键词的音频加入到所述第二测试集。
18.第三方面,本公开的实施例提供了一种语音识别的电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面中任一项所述的方法。
19.第四方面,本公开的实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如第一方面中任一项所述的方法。
20.本公开的实施例提供的语音识别的方法和装置,通过使用带有关键词的少量训练数据进行第一轮增量训练。完成第一轮训练后,使用第一轮训练所得模型,将测试集中正确召回的数据加入训练集进行第二轮增量训练。既可以大幅减少训练时间和所需数据量,又可以解决增量学习的过拟合问题以及热词解码的局限性。
附图说明
21.通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
22.图1是本公开的一个实施例可以应用于其中的示例性系统架构图;
23.图2是根据本公开的语音识别的方法的一个实施例的流程图;
24.图3是根据本公开的语音识别的方法的一个应用场景的示意图;
25.图4是根据本公开的语音识别的方法的又一个实施例的流程图;
26.图5是根据本公开的语音识别的方法的热词解码流程图;
27.图6是根据本公开的语音识别的装置的一个实施例的结构示意图;
28.图7是适于用来实现本公开的实施例的电子设备的计算机系统的结构示意图。
具体实施方式
29.下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
30.需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
31.图1示出了可以应用本技术实施例的语音识别的方法、语音识别的装置的示例性系统架构100。
32.如图1所示,系统架构100可以包括终端101、102,网络103、数据库服务器104和服务器105。网络103用以在终端101、102,数据库服务器104与服务器105之间提供通信链路的介质。网络103可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
33.用户110可以使用终端101、102通过网络103与服务器105进行交互,以接收或发送消息等。终端101、102上可以安装有各种客户端应用,例如模型训练类应用、语音识别类应用、购物类应用、支付类应用、网页浏览器和即时通讯工具等。
34.这里的终端101、102可以是硬件,也可以是软件。当终端101、102为硬件时,可以是具有麦克风的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、mp3播放器(moving picture experts group audio layer iii,动态影像专家压缩标准音频层面3)、膝上型便携计算机和台式计算机等等。当终端101、102为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
35.当终端101、102为硬件时,其上还可以安装有音频采集设备。音频采集设备可以是各种能实现采集音频功能的设备,如麦克风等等。用户110可以利用终端101、102上的音频采集设备,来采集自身或他人的语音。
36.数据库服务器104可以是提供各种服务的数据库服务器。例如数据库服务器中可以存储有样本集。样本集中包含有大量的样本。其中,样本可以包括音频以及与音频对应的标注信息。这样,用户110也可以通过终端101、102,从数据库服务器104所存储的样本集中选取样本。
37.服务器105也可以是提供各种服务的服务器,例如对终端101、102上显示的各种应
用提供支持的后台服务器。后台服务器可以利用终端101、102发送的样本集中的样本,对初始模型进行训练,并可以将训练结果(如生成的语音识别模型)发送给终端101、102。这样,用户可以应用生成的语音识别模型进行语音识别。
38.这里的数据库服务器104和服务器105同样可以是硬件,也可以是软件。当它们为硬件时,可以实现成多个服务器组成的分布式服务器集,也可以实现成单个服务器。当它们为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
39.需要说明的是,本技术实施例所提供的语音识别的方法一般由服务器105执行。相应地,语音识别的装置一般也设置于服务器105中。
40.需要指出的是,在服务器105可以实现数据库服务器104的相关功能的情况下,系统架构100中可以不设置数据库服务器104。
41.应该理解,图1中的终端、网络、数据库服务器和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端、网络、数据库服务器和服务器。
42.继续参见图2,其示出了根据本技术的语音识别的方法的一个实施例的流程200。该语音识别的方法可以包括以下步骤:
43.步骤201,获取待识别的关键词。
44.在本实施例中,语音识别的方法的执行主体(例如图1所示的服务器105)可以通过多种方式来获取待识别的关键词。例如,执行主体可以通过有线连接方式或无线连接方式,从数据库服务器(例如图1所示的数据库服务器104)中获取存储于其中的现有的待识别的关键词。再例如,用户可以通过终端(例如图1所示的终端101、102)来收集待识别的关键词。这样,执行主体可以接收终端所收集的待识别的关键词,并将这些待识别的关键词存储在本地。
45.待识别的关键词应用于新的场景,原场景训练出的语音识别模型对待识别的关键词的识别效果不好。关键词一般为专业术语或产品名称,如“etf”、“xy贷”等。
46.步骤202,从原场景训练集中查包含关键词的音频组成第一训练集,并获取包含关键词且非原场景训练集的音频组成第一测试集。
47.在本实施例中,本技术是在原场景的第一语音识别模型的基础上进行的增量学习。使用原有语音识别模型,在小批量新场景训练集上进行训练,使其最大程度原场景上的识别性能的同时,又可以拟合新的场景。增量学习是指模型在不访问原始数据的基础上使用新数据对新的任务或场景知识进行学习,同时又不遗忘已经学习到的任务或场景知识。它既可以优化模型在新场景下的性能,又可以最大程度地保留模型在原场景下的精度。
48.原场景的第一语音识别模型是通过原场景训练集训练的。原场景训练集包括大量音频,每个音频与标注信息相对应,标注信息用于标注音频的内容。原场景训练集中有部分音频是包括关键词的,可以把这些包括关键词的音频挑出来组成第一训练集。再收集包含关键词且不在原场景训练集的音频组成第一测试集,用于对训练完成的模型进行性能验证。
49.在本实施例的一些可选地实现方式中,第一训练集中音频的数量大于第一阈值(例如,30条),如果训练数据不足,则训练效果不理想,需要录制包含所述关键词的音频加入到所述第一训练集,使得包含所述关键词的音频的总数大于第一阈值。
50.在本实施例的一些可选地实现方式中,所述第一测试集中音频的数量大于第二阈值(例如,15条)。第二阈值可以小于第一阈值。需要有足够的测试集对模型进行性能验证,也为了能让部分测试集中的数据加入训练集后,测试集仍有足够数量的音频对模型进行性能验证。
51.步骤203,基于第一训练集对原场景的第一语音识别模型进行第一轮增量训练,得到第二语音识别模型。
52.在本实施例中,增量训练不需要在训练过程开始之前就提供大量的训练数据,而是随着时间推移不断使用新的训练数据进行训练。将第一训练集中的音频和标注信息分别作为第一语音识别模型的输入和期望输出,对第一语音识别模型进行有监督地训练,得到第二语音识别模型。具体训练过程为现有技术,因此不再赘述。
53.步骤204,使用第二语音识别模型对第一测试集进行识别,将第一测试集中关键词被正确识别的音频加入到第一训练集,得到第二训练集和第二测试集。
54.在本实施例中,使用训练完成的第二语音识别模型对第一测试集进行识别。对于关键词被正确识别的音频,将其加入第一训练集,得到第二训练集,并从第一测试集中删除该音频,得到第二测试集。也就是说经过第一次增量训练,增加了训练集的音频的数量,减小了测试集的音频的数量。
55.在本实施例的一些可选地实现方式中,若所述第一测试集中关键词被全部正确识别或所述第二测试集中音频的数量小于第三阈值,则录制包含所述关键词的音频加入到所述第二测试集。第三阈值(例如5条)可小于第二阈值(例如15条),也小于第一阈值(例如30条)。若测试集中所有音频的关键词均被模型正确识别,或新测试集中音频少于5条,则录制含有关键词的新音频,使新测试集中的音频不少于5条。
56.在本实施例的一些可选地实现方式中,通过热词解码器将第二语音识别模型对所述第一测试集进行识别得到的识别结果进行调整;根据调整后的识别结果确定出关键词被正确识别的音频;将确定出的音频加入到所述第一训练集,得到第二训练集;从所述第一训练集中删除确定出的音频,得到第二测试集。在模型识别过程中,本方法使用了如图5所示的热词解码器。热词解码器在语音识别解码过程中,在各个时间步上对解码路径的末尾进行匹配,若解码路径末尾为所指定的热词,则对该路径给予相应的加分。如图5中所示,指定的解码热词为“etf”,在某时间步中,某解码路径的末尾出现“etf”,经热词解码器匹配后,得分获得提升。在完成解码搜索时,解码器输出得分最高的解码路径作为识别结果,为获得热词奖励的带有关键词的路径。这样,通过声学模型的调整和热词的调整,本方法有效提升了关键词的召回率。
57.步骤205,基于第二训练集对第二语音识别模型进行第二轮增量训练,得到第三语音识别模型。
58.在本实施例中,将第二训练集中的音频和标注信息分别作为第二语音识别模型的输入和期望输出,对第二语音识别模型进行有监督地训练,得到第三语音识别模型。第三语音识别模型对关键词的识别效果有了明显提升。
59.本实施例中语音识别的方法,在训练样本较少的情况下,使用增量学习调整语音识别模型,结合热词的方式提高关键词的召回率的方法;同时,相较于其他方式,本方法可以有效的保留新模型在旧场景上的识别性能,同时解决了热词解码受限于声学概率分布的
问题。
60.步骤206,将第二测试集输入所述第三语音识别模型,得到初始识别结果。
61.在本实施例中,使用第二测试集对第三语音识别模型的性能进行验证,得到初始识别结果,即对关键词识别的准确性。进一步参见图3,图3是根据本实施例的语音识别的方法的一个应用场景的示意图。具体过程如下:
62.1)用户可通过终端设备向服务器输入待识别的关键词“etf”。
63.2)对于指定的关键词,在原场景训练集中出含有该关键词的训练数据,组成第一次增量训练的训练集,若训练集中含有的带关键词的音频不足30条,则需录制含有关键词的音频,使训练集中音频不少于30条。同时,收集含有关键词且不在原场景训练集中的数据,不少于15条,作为测试集。
64.3)使用原场景的语音识别模型进行增量训练,使用1)中训练集,进行第一轮增量训练。
65.4)训练完成后,使用3)中所得的新模型对测试集进行识别,对于关键词被正确识别的音频,将其加入2)中训练集;对于未被识别正确的音频,将其加入新的测试集中。若测试集中所有音频的关键词均被模型正确识别,或新测试集中音频少于5条,则录制含有关键词的新音频,使新测试集中的音频不少于5条。
66.在模型识别过程中,本方法使用了如图4所示的热词解码器。热词解码器在语音识别解码过程中,在各个时间步上对解码路径的末尾进行匹配,若解码路径末尾为所指定的热词,则对该路径给予相应的加分。如图4中所示,指定的解码热词为“etf”,在某时间步中,某解码路径的末尾出现“etf”,经热词解码器匹配后,得分获得提升。在完成解码搜索时,解码器输出得分最高的解码路径作为识别结果,为获得热词奖励的带有关键词的路径。这样,通过语音识别模型(特别是声学模型)的调整和热词的调整,本方法有效提升了关键词的召回率。
67.5)使用4)中训练集,对3)中所得模型进行第二轮增量训练。
68.6)训练完成后,得到5)中模型,即为语音识别模型。
69.继续参见图4,作为对上述各图所示方法的实现,本技术提供了一种语音识别的方法的又一个实施例的流程图。
70.如图4所示,本实施例的语音识别的方法400可以包括:
71.步骤401,获取待识别的关键词。
72.步骤402,从原场景训练集中查包含关键词的音频组成第一训练集,并获取包含关键词且非原场景训练集的音频组成第一测试集。
73.步骤403,基于第一训练集对原场景的第一语音识别模型进行第一轮增量训练,得到第二语音识别模型。
74.步骤404,使用第二语音识别模型对第一测试集进行识别,将第一测试集中关键词被正确识别的音频加入到第一训练集,得到第二训练集和第二测试集。
75.步骤405,基于第二训练集对第二语音识别模型进行第二轮增量训练,得到第三语音识别模型。
76.步骤401-405与步骤201-205基本相同,因此不再赘述。
77.步骤406,将第二测试集输入第三语音识别模型,得到初始识别结果。
78.在本实施例中,使用第二测试集对第三语音识别模型的性能进行验证,得到初始识别结果,即对关键词识别的准确性。
79.步骤407,通过热词解码器对初始识别结果进行调整,计算关键词的召回率。
80.在本实施例中,使用了如图5所示的热词解码器。热词解码器在语音识别解码过程中,在各个时间步上对解码路径的末尾进行匹配,若解码路径末尾为所指定的热词,则对该路径给予相应的加分。如图5中所示,指定的解码热词为“etf”,在某时间步中,某解码路径的末尾出现“etf”,经热词解码器匹配后,得分获得提升。在完成解码搜索时,解码器输出得分最高的解码路径作为识别结果,为获得热词奖励的带有关键词的路径。这样,通过声学模型的调整和热词的调整,本方法有效提升了关键词的召回率。
81.可选地,如果召回率未达到期望阈值,则还可重复执行步骤404-407,继续从测试集中选出准确识别出关键词的音频加入到训练集中,用更新的训练集重复训练模型,直到训练完成的模型的召回率达到期望阈值。
82.从图4中可以看出,与图2对应的实施例相比,本实施例中的语音识别的方法的流程400体现了对语音识别模型的识别结果通过热词解码器进行调整的步骤。由此,本实施例描述的方案可以提高关键词的召回率。
83.继续参见图6,作为对上述各图所示方法的实现,本技术提供了一种语音识别的装置的一个实施例。该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
84.如图6所示,本实施例的语音识别的装置600可以包括:获取单元601、组成单元602、第一训练单元603、识别单元604、第二训练单元605和输出单元606。其中,获取单元601,被配置成获取待识别的关键词;组成单元602,被配置成从原场景训练集中查包含所述关键词的音频组成第一训练集,并获取包含所述关键词且非原场景训练集的音频组成第一测试集;第一训练单元603,被配置成基于所述第一训练集对原场景的第一语音识别模型进行第一轮增量训练,得到第二语音识别模型;识别单元604,被配置成使用所述第二语音识别模型对所述第一测试集进行识别,将所述第一测试集中关键词被正确识别的音频加入到所述第一训练集,得到第二训练集和第二测试集;第二训练单元605,被配置成基于所述第二训练集对所述第二语音识别模型进行第二轮增量训练,得到第三语音识别模型;输出单元606,被配置成将所述第二测试集输入所述第三语音识别模型,得到初始识别结果。
85.在本实施例中,语音识别的装置600的获取单元601、组成单元602、第一训练单元603、识别单元604、第二训练单元605和输出单元606的具体处理可以参考图2对应实施例中的步骤201、步骤202、步骤203、步骤204、步骤205和步骤206。
86.在本实施例的一些可选的实现方式中,装置600还包括计算单元(附图中未示出),被配置成:通过热词解码器对所述初始识别结果进行调整,计算所述关键词的召回率。
87.在本实施例的一些可选的实现方式中,所述识别单元604进一步被配置成:通过热词解码器将第二语音识别模型对所述第一测试集进行识别得到的识别结果进行调整;根据调整后的识别结果确定出关键词被正确识别的音频;将确定出的音频加入到所述第一训练集,得到第二训练集;从所述第一训练集中删除确定出的音频,得到第二测试集。
88.在本实施例的一些可选的实现方式中,所述第一训练集中音频的数量大于第一阈值。
89.在本实施例的一些可选的实现方式中,所述装置600还包括第一录音单元(附图中未示出),被配置成:若所述原场景训练集中包含所述关键词的音频的数量不大于第一阈值,则录制包含所述关键词的音频加入到所述第一训练集。
90.在本实施例的一些可选的实现方式中,所述第一测试集中音频的数量大于第二阈值。
91.在本实施例的一些可选的实现方式中,所述装置600还包括第二录音单元(附图中未示出),被配置成:若所述第一测试集中关键词被全部正确识别或所述第二测试集中音频的数量小于第三阈值,则录制包含所述关键词的音频加入到所述第二测试集。
92.根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质。
93.图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
94.如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(rom)702中的计算机程序或者从存储单元708加载到随机访问存储器(ram)703中的计算机程序,来执行各种适当的动作和处理。在ram 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、rom 702以及ram 703通过总线704彼此相连。输入/输出(i/o)接口705也连接至总线704。
95.设备700中的多个部件连接至i/o接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
96.计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如方法语音识别。例如,在一些实施例中,方法语音识别可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由rom 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到ram 703并由计算单元701执行时,可以执行上文描述的方法语音识别的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法语音识别。
97.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器
可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
98.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
99.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
100.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
101.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
102.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以为分布式系统的服务器,或者是结合了区块链的服务器。服务器也可以是云服务器,或者是带人工智能技术的智能云计算服务器或智能云主机。服务器可以为分布式系统的服务器,或者是结合了区块链的服务器。服务器也可以是云服务器,或者是带人工智能技术的智能云计算服务器或智能云主机。
103.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
104.上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明
白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

技术特征:


1.一种语音识别的方法,包括:获取待识别的关键词;从原场景训练集中查包含所述关键词的音频组成第一训练集,并获取包含所述关键词且非原场景训练集的音频组成第一测试集;基于所述第一训练集对原场景的第一语音识别模型进行第一轮增量训练,得到第二语音识别模型;使用所述第二语音识别模型对所述第一测试集进行识别,将所述第一测试集中关键词被正确识别的音频加入到所述第一训练集,得到第二训练集和第二测试集;基于所述第二训练集对所述第二语音识别模型进行第二轮增量训练,得到第三语音识别模型;将所述第二测试集输入所述第三语音识别模型,得到初始识别结果。2.根据权利要求1所述的方法,其中,所述方法还包括:通过热词解码器对所述初始识别结果进行调整,计算所述关键词的召回率。3.根据权利要求1所述的方法,其中,所述将所述第一测试集中关键词被正确识别的音频加入到所述第一训练集,得到第二训练集和第二测试集,包括:通过热词解码器将第二语音识别模型对所述第一测试集进行识别得到的识别结果进行调整;根据调整后的识别结果确定出关键词被正确识别的音频;将确定出的音频加入到所述第一训练集,得到第二训练集;从所述第一训练集中删除确定出的音频,得到第二测试集。4.根据权利要求1所述的方法,其中,所述第一训练集中音频的数量大于第一阈值。5.根据权利要求4所述的方法,其中,所述方法还包括:若所述原场景训练集中包含所述关键词的音频的数量不大于第一阈值,则录制包含所述关键词的音频加入到所述第一训练集。6.根据权利要求1所述的方法,其中,所述第一测试集中音频的数量大于第二阈值。7.根据权利要求1所述的方法,其中,所述方法还包括:若所述第一测试集中关键词被全部正确识别或所述第二测试集中音频的数量小于第三阈值,则录制包含所述关键词的音频加入到所述第二测试集。8.一种语音识别的装置,包括:获取单元,被配置成获取待识别的关键词;组成单元,被配置成从原场景训练集中查包含所述关键词的音频组成第一训练集,并获取包含所述关键词且非原场景训练集的音频组成第一测试集;第一训练单元,被配置成基于所述第一训练集对原场景的第一语音识别模型进行第一轮增量训练,得到第二语音识别模型;识别单元,被配置成使用所述第二语音识别模型对所述第一测试集进行识别,将所述第一测试集中关键词被正确识别的音频加入到所述第一训练集,得到第二训练集和第二测试集;第二训练单元,被配置成基于所述第二训练集对所述第二语音识别模型进行第二轮增量训练,得到第三语音识别模型;
输出单元,被配置成将所述第二测试集输入所述第三语音识别模型,得到初始识别结果。9.一种语音识别的电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一项所述的方法。10.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-7中任一项所述的方法。

技术总结


本公开的实施例公开了语音识别的方法和装置。该方法的具体实施方式包括:获取待识别的关键词;从原场景训练集中查包含关键词的音频组成第一训练集,并获取包含关键词且非原场景训练集的音频组成第一测试集;基于第一训练集对原场景的第一语音识别模型进行第一轮增量训练,得到第二语音识别模型对第一测试集进行识别,将第一测试集中关键词被正确识别的音频加入到第一训练集,得到第二训练集和第二测试集进行第二轮增量训练,得到第三语音识别模型;将第二测试集输入所述第三语音识别模型,得到初始识别结果。该实施方式既可以大幅减少训练时间和所需数据量,又可以解决增量学习的过拟合问题以及热词解码的局限性。习的过拟合问题以及热词解码的局限性。习的过拟合问题以及热词解码的局限性。


技术研发人员:

王润宇 资礼波 付立

受保护的技术使用者:

京东科技控股股份有限公司

技术研发日:

2021.04.09

技术公布日:

2022/10/17


文章投稿或转载声明

本文链接:http://www.wtabcd.cn/zhuanli/patent-1-31668-0.html

来源:专利查询检索下载-实用文体写作网版权所有,转载请保留出处。本站文章发布于 2022-12-11 12:57:11

发表评论

验证码:
用户名: 密码: 匿名发表
评论列表 (有 条评论
2人围观
参与讨论