本文作者:kaifamei

对话意图识别方法、装置、设备以及存储介质与流程

更新时间:2025-12-26 16:43:03 0条评论

对话意图识别方法、装置、设备以及存储介质与流程



1.本技术涉及通信技术,尤其涉及一种对话意图识别方法、装置、设备以及存储介质。


背景技术:



2.智能交互设备已经被广泛应用到各个行业中,例如商场中会配置自助导航机器人、自助点餐机器人,银行中会配置客服机器人等。智能交互设备通常需要识别用户是否要与其进行对话,以便及时做出应答。
3.目前智能交互设备检测用户是否有对话意图的方式通常是检测用户的语音信息,然后将该语音信息转换为文本信息,再将查看是否有与文本信息匹配的对话模板,以此来判断用户是否对话意图。
4.然而,这种对话意图识别方式单一,超出对话模板之外的文本信息则无法识别,在语音内容不清晰时也无法识别,因此识别范围有限。


技术实现要素:



5.本技术提供一种对话意图识别方法、装置、设备以及存储介质,用以解决对话意图识别方式单一、识别范围有限的问题。
6.第一方面,本技术提供一种对话意图识别方法,该方法包括:
7.在目标对象与交互设备交互的过程中,获取目标对象的语音信息和图像信息;
8.根据所述语音信息和所述图像信息确定表示特征集合,所述表示特征集合中包括以下的一种或多种:听觉模态表示特征、视觉模态表示特征、文本语义模态表示特征;
9.根据所述表示特征集合,生成意图分析结果,其中,所述意图分析结果表征所述目标对象是否有与交互设备对话的意图。
10.在一种可能的实施方式中,根据所述语音信息和所述视频信息确定表示特征集合,包括:
11.对所述语音信息进行语音识别处理,得到所述听觉模态表示特征和所述文本语义模态表示特征,并对所述图像信息进行图像识别处理,得到视觉模态表示特征;
12.根据所述听觉模态表示特征、所述文本语义模态表示特、所述视觉模态表示特征,确定所述表示特征集合。
13.在一种可能的实施方式中,所述对所述语音信息进行语音识别处理,得到所述听觉模态表示特征,包括:
14.基于所述语音信息得到声源信息和音频信息。
15.提取所述声源信息中的声源方位特征和声源距离特征,并提取所述音频信息中的音频特征;
16.将所述声源方位特征、所述声源距离特征以及音频特征进行融合,得到融合语音特征;
17.根据所述融合语音特征确定所述听觉模态表示特征。
18.在一种可能的实施方式中,所述提取所述声源信息中的声源方位特征包括:
19.从预先划分好的多个第一区域中获取所述声源信息对应的区域作为目标第一区域,其中,所述多个第一区域以交互设备为中心,且按照指定角度均匀划分;
20.将所述目标第一区域对应的特征向量位确定为所述声源方位特征。
21.在一种可能的实施方式中,所述提取所述声源信息中的声源距离特征包括:
22.从预先划分好的多个第二区域中获取所述声源信息对应的区域作为目标第二区域,其中,所述多个第二区域以交互设备为起始点,且按照指定距离均匀划分;
23.将所述目标第二区域对应的特征向量位确定为所述声源方位特征。
24.在一种可能的实施方式中,所述对所述图像信息进行图像识别处理,得到视觉模态表示特征,包括:
25.从所述图像信息中识别出所述目标对象的面部特征;
26.基于所述面部特征确定所述视觉模态表示特征。
27.在一种可能的实施方式中,所述面部特征包括面部关键点特征、唇部关键点特征以及面部位置特征中的一种或多种。
28.在一种可能的实施方式中,所述对所述语音信息进行语音识别处理,得到文本语义模态表示特征,包括:
29.基于所述语音信息得到文本信息。
30.获取所述文本信息与初始对话集合之间的相关度,其中,所述初始对话集合包括交互设备中在所述文本信息之前输入的多段文本;
31.将所述相关度确定所述文本语义模态表示特征。
32.在一种可能的实施方式中,所述获取所述文本信息与初始对话集合之间的相关度,包括:
33.根据所述初始对话集合确定交互设备的当前对话场景;
34.获取所述当前对话场景与所述文本信息之间的相关度,并将所述当前对话场景与所述文本信息的相关度确定为所述文本信息与初始对话集合之间的相关度。
35.在一种可能的实施方式中,所述根据所述表示特征集合,生成意图分析结果,其中,所述意图分析结果表征所述目标对象是否有与交互设备对话的意图,包括:
36.将所述表示特征集合输入至预先训练好的意图判别模型,获取所述意图判别模型输出意图判别结果,获取所述意图判别模型输出的意图分析结果。
37.第二方面,本技术提供一种对话意图识别装置,该对话意图识别装置包括:
38.信息获取模块,用于在目标对象与交互设备交互的过程中,获取目标对象的语音信息和图像信息;
39.表示特征集合确定模块,用于根据所述语音信息和所述图像信息确定表示特征集合,所述表示特征集合中包括以下的一种或多种:听觉模态表示特征、视觉模态表示特征、文本语义模态表示特征;
40.意图分析结果生成模块,用于根据所述表示特征集合,生成意图分析结果,其中,所述意图分析结果表征所述目标对象是否有与交互设备对话的意图。
41.第三方面,本技术提供一种对话意图识别设备,包括:存储器,处理器;其中,存储
器,用于存储处理器可执行指令的存储器;其中,处理器被配置为用于实现第一方面的方法。
42.第四方面,本技术还提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现如第一方面的方法。
43.第五方面,本技术实施例还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行第一方面的方法。
44.本技术提供的对话意图识别方法、装置、设备以及存储介质,通过在目标对象与交互设备交互的过程中,获取目标对象的语音信息和图像信息,再根据语音信息和图像信息确定表示特征集合,其中,表示特征集合中包括以下的一种或多种:听觉模态表示特征、视觉模态表示特征、文本语义模态表示特征,最后根据表示特征集合,生成意图分析结果,其中,意图分析结果表征目标对象是否有与交互设备对话的意图,从而使交互设备在与目标对象交互的过程中,可以同时从听觉、视觉以及文本语义等多个方面去分析目标对象是否有对话意图,识别方式更加多样、全面,提升了交互设备的意图识别的准确性和识别能力。
附图说明
45.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
46.图1为本技术实施例提供的对话意图识别方法的一种应用场景图;
47.图2为本技术一个实施例提供的对话意图识别方法的流程图;
48.图3为本技术实施例提供的交互意图判别模型的构建方法流程图;
49.图4为本技术另一个实施例提供的对话意图识别方法的流程图;
50.图5为本技术图4所示实施例中步骤202的流程图;
51.图6为本技术实施例提供的第一区域划分示意图;
52.图7为本技术实施例提供的第二区域划分示意图;
53.图8为本技术实施例提供的听觉模型的构建方法流程图;
54.图9为本技术实施例提供的文本语义模型的构建方法流程图;
55.图10为本技术实施例提供的视觉模型的构建方法流程图;
56.图11为本技术实施例提供的对话意图识别装置的结构示意图;
57.图12是本公开一种实施例提供的对话意图识别设备的框图。
58.通过上述附图,已示出本技术明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本技术构思的范围,而是通过参考特定实施例为本领域技术人员说明本技术的概念。
具体实施方式
59.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附
权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
60.随着人机交互技术越来越成熟,智能交互设备的应用也越来越广泛。
61.目前在用户进行交互的过程中,用户可以向交互设备输入语音或者文字等数据,交互设备可以对用户输入的数据进行一系列的处理,例如语音识别、语义识别,最终根据用户输入的数据确定回复信息,并将回复信息反馈给用户。
62.然而,目前的交互设备在意图识别上的识别方式比较单一,仅仅是获取语音信息,将其转化为文字后,无差别的进入意图识别并给出响应。若由语音信息转化成的文字在交互设备中不到对应的话术模板,那么交互设备则无法识别出用户是否有对话的意图。若交互设备处于嘈杂的环境中,无法接收到清晰的语音信息,也难以对用户的对话意图进行识别。由此可见,目前交互设备对用户对话意图进行识别时,识别方式单一,能识别范围有限,识别能力较差。
63.为了解决上述的技术问题,本技术实施例提供了一种意图识别方法、装置、设备及存储介质,通过从语音信息和图像信息中提取出多种模态的数据来进行意图识别,相比于单一模式的判断,能够提升识别范围和识别能力。
64.下面以具体地实施例对本公开的技术方案以及本公开的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本公开的实施例进行描述。
65.下面对本技术实施例的应用场景进行解释:
66.图1为本技术实施例提供的对话意图识别方法的一种应用场景图,如图1所示,该应用场景包括交互设备10和目标对象20。其中,交互设备10可以具有图像采集功能、语音采集功能、信息输入功能、显示功能等,具体地,交互设备10可以配置有高清摄像头、触控屏、按键组件、音频采集设备(例如麦克风阵列)、音频播放设备等设备。目标对象20可以为用户,用户可以通过交互设备10上配置的各种设备与该交互设备10进行交互。
67.可选地,交互设备10可以包括但不限于:客服机器人、导航机器人、自助咨询机器人、配置有智能语音助手的移动终端(如车载终端)等。
68.图2为本技术一个实施例提供的对话意图识别方法的流程图,该对话意图识别方法可以应用于上述应用环境中的交互设备,如图2所示,本实施例提供的对话意图识别方法可以包括以下步骤:
69.101、在目标对象与交互设备交互的过程中,获取目标对象的语音信息和图像信息。
70.在一些实施方式中,交互设备可以检测目标区域内是否有目标对象,若有目标对象,则可以通过音频采集设备采集目标对象的语音信息,并通过图像采集设备采集目标对象的图像信息。其中,图像信息中至少包含目标对象的脸部图像。
71.可选地,语音信息可以包括但不限于响度、音、音频等信息。
72.可选地,图像信息可以包括视频和图片中的至少一种。
73.其中,目标区域可以是交互设备的图像采集装置和音频采集装置可以辐射到的区域。
74.102、根据语音信息和图像信息确定表示特征集合,表示特征集合中包括以下的一种或多种:听觉模态表示特征、视觉模态表示特征、文本语义模态表示特征。
75.可选地,听觉模态表示特征可以包括但不限于:声源方位特征、声源距离特征、音频特征等。
76.视觉模态表示特征可以包括但不限于:面部关键点特征、唇部关键点特征、面部位置特征等。
77.文本语义模态表示特征可以包括当前文本输入与对话场景主题的相关度等。
78.在一些实施方式中,交互设备中可以配置有预先训练好的听觉模型、视觉模型以及文本语义模型,其中,听觉模型、视觉模型以及文本语义模型可以为神经网络模型。然后,语音信息和图像信息输入到对应的模型,可以得到听觉模型输出的听觉模态表示特征,视觉模型输出的视觉模态表示特征,文本语义模型输出的文本语义模态表示特征,在将视觉模态表示特征,文本语义模型输出的文本语义模态表示特征确定为表示特征集合。可选地,表示特征集合除上述表示特征以外还可以包括其他的表示特征,在此不做限定。
79.考虑到神经网络是一种常用的单模态数据特征提取方法,可以广泛用于视觉、听觉和文本数据,在本实施方式中,通过训练神经网络模型可以有效、快捷地从语音信息和图像信息中提取出听觉模态表示特征、视觉模态表示特征、文本语义模态表示特征。
80.103、根据表示特征集合,生成意图分析结果,其中,意图分析结果表征目标对象是否有与交互设备对话的意图。
81.在一些实施方式中,交互意图判别模型的构建流程可以如图3所示,该交互意图判别模型可以基于听觉模态表示特征、视觉模态表示特征、文本语义模态表示特征训练得到,交互设备中还可以配置该交互意图判别模型,其中,该交互意图判别模型可以为神经网络模型。当表示特征集合确定以后可以将表示特征集合中的各表示特征输入至交互意图判别模型,然后获得交互意图判别模型输出的意图分析结果。
82.在本实施例中,通过在目标对象与交互设备交互的过程中,获取目标对象的语音信息和图像信息,再根据语音信息和图像信息确定表示特征集合,其中,表示特征集合中包括以下的一种或多种:听觉模态表示特征、视觉模态表示特征、文本语义模态表示特征,最后根据表示特征集合,生成意图分析结果,其中,意图分析结果表征目标对象是否有与交互设备对话的意图,从而使交互设备在与目标对象交互的过程中,可以同时从听觉、视觉以及文本语义等多个方面去分析目标对象是否有对话意图,识别方式更加多样、全面,提升了交互设备的意图识别的准确性和识别能力。另外,通过交互意图判别模型分别接收听觉模型、视觉模型以及文本语义模型输出的表示特征进行判断,避免了交互意图判别模型直接对语音信息和图像信息进行繁琐的识别、特征提取等过程,减小了交互意图判别模型的数据处理量,从而可以提升其识别效率。
83.图4为本技术另一个实施例提供的对话意图识别方法的流程图,该对话意图识别方法可以应用于上述应用环境中的交互设备,如图4所示,本实施例提供的对话意图识别方法可以包括以下步骤:
84.201、在目标对象与交互设备交互的过程中,获取目标对象的语音信息和图像信息。
85.其中,步骤201的具体实施方式可以参考步骤101,故不在此赘述。
86.202、对语音信息进行语音识别处理,得到听觉模态表示特征和文本语义模态表示特征,并对图像信息进行图像识别处理,得到视觉模态表示特征。
87.其中,交互设备可以对语音信息从两方面的进行语音识别处理,一方面可以从听觉特性上进行识别,例如识别语音信息中的声源信息和音频信息等,另一方面可以从语义特性上进行识别,从而可以将语音转化文本语义。另外,交互设备可以对图像信息进行图像识别处理,例如人脸识别、人脸距离识别、面部关键点识别等等,从而得到视觉模态表示特征。
88.在一些实施方式中,如图5所示,步骤202具体可以包括以下步骤:
89.2021、基于语音信息得到声源信息和音频信息。
90.其中,语音信息可以包括通过麦克风阵列获取的声源的定位信息、距离信息以及音频信息,交互设备可以将声源的定位信息和距离信息作为声源信息。
91.2022、提取声源信息中的声源方位特征和声源距离特征,并提取音频信息中的音频特征。
92.作为一种方式,提取声源信息中的声源方位特征的具体实施方式可以包括:从预先划分好的多个第一区域中获取声源信息对应的区域作为目标第一区域,其中,多个第一区域以交互设备为中心,且按照指定角度均匀划分;将目标第一区域对应的特征向量位确定为声源方位特征。
93.示例性地,如图6所示,可以将交互设备所处位置作为中心,按照指定角度将交互设备周围划分成多个扇形的第一区域,如图6中的第一区域a1、第一区域a2、第一区域a3等,再对每个划分的区域对应的角度进行编码,其中,指定角度可以根据交互设备的定位精度确定。作为一种示例,若指定角度可以为6度,则可以将交互设备周围的360度中的每6度作为一个特征向量位,并且每个特征向量位以一位有效(onehot)编码,这样可以将声源方位信息转换为60位的特征向量。
94.然后,交互设备可以检测声源信息处于多个第一区域中的哪个区域,如声源信息处于第一区域a2,则可以将第一区域a2确定为声源信息对应的区域,并将第一区域a2作为目标第一区域。然后将第一区域a2对应的特征向量位确定为声源方位特征,从而获得声源方位特征。
95.在本实施方式中,通过预先将交互设备周围划分为不同角度范围的区域,并对各区域进行编码,再将声源信息的落入区域对应的编码信息作为声源方位特征,从而能够准确、有效地确定声源方位特征。
96.其中,提取声源信息中的声源距离特征的具体实施方式可以包括:从预先划分好的多个第二区域中获取声源信息对应的区域作为目标第二区域,其中,多个第二区域以交互设备为起始点,且按照指定距离均匀划分;将目标第二区域对应的特征向量位确定为声源方位特征。
97.示例性地,如图7所示,可以将交互设备所处位置作为起始点,按照指定距离将交互设备周围的区域划分为第二区域。如图7中的第二区域b1、第二区域b2、第二区域b3、第二区域b4等,其中,多个第二区域中相邻两个第二区域的边界均相差指定距离。作为一种示例,例如对交互设备的麦克风的有效距离进行60份等分,并对每个第二区域进行编码。
98.然后,交互设备可以检测声源信息处于多个第二区域中的哪个区域,如声源信息处于第二区域b4,则可以将第二区域b4确定为声源信息对应的区域,并将第二区域b4作为目标第二区域。然后将第二区域b4对应的编码信息作为声源距离特征。
99.可选地,可以在多个第二区域中设置指定第二区域,将处于指定第二区域的声源信息编码为1,将没有处于指定第二区域的声源信息编码为0,再将声源信息的编码作为声源距离特征。
100.在本实施方式中,通过预先将交互设备周围划分为不同距离范围的区域,并对各区域进行编码,再将声源信息的落入区域对应的编码信息作为声源距离特征,从而能够准确、有效地确定声源距离特征。
101.作为一种示例,提取音频信息中的音频特征的具体实施方式可以包括:将音频信息以16khz进行采样,每20ms取为1帧,帧偏移为10ms,在幅度谱上应用mel滤波器进行滤波。然后对振幅取对数,得到每帧的梅尔频率倒谱系数(mel frequency cepstral coefficients,mfcc)特征。最后,将提取的mfcc特征归一化为零均值和单位标准差,从而得到音频特征。
102.2023、将声源方位特征、声源距离特征以及音频特征进行融合,得到融合语音特征。
103.其中,融合语音特征可以包括声源方位特征、声源距离特征以及音频特征的所有特征,例如声源方位特征为120维的向量、声源距离特征为180维的向量、音频特征为200维的向量,则基于声源方位特征、声源距离特征以及音频特征融合得到的融合语音特征为500维的向量。
104.2024、根据融合语音特征确定听觉模态表示特征。
105.作为一种方式,可以将融合语音特征输入到听觉模型中,听觉模型可以输出相应的听觉模态表示特征。
106.作为一种示例,听觉模型的构建方式可以如图8所示:首先交互设备对语音信息中的声源信息和音频信息进行采集,然后从声源信息中提取出声源方位特征和声源距离特征,从音频信息中提取音频特征,再将声源方位特征、声源距离特征以及音频特征进行融合,最后基于融合语音特征构建听觉模型。
107.在本实施方式中,通过基于语音信息得到声源信息和音频信息,再提取声源信息中的声源方位特征和声源距离特征,并提取音频信息中的音频特征。然后将声源方位特征、声源距离特征以及音频特征进行融合,得到融合语音特征。最后根据融合语音特征确定听觉模态表示特征,由于声源方位朝向交互设备的正面、声源距离在交互设备的接收范围内、音频满足人声要求时,表明目标对象很可能是在对交互设备对话,从而能够从声源的方位、距离特征以及音频特征三个方面来准确、全面地判断目标对象是否有与交互设备对话的意图,提升了意图识别的准确性。
108.在另一些实施方式中,请再次参阅图5,步骤202具体还可以包括以下步骤:
109.2025、基于语音信息得到文本信息。
110.作为一种方式,交互设备可以通过语音识别(automatic speech recognition,asr)将语音信息转换为文本信息。
111.2026、获取文本信息与初始对话集合之间的相关度,其中,初始对话集合包括交互设备中在文本信息之前输入的多段文本。
112.作为一种示例,交互设备可以调用在当前输入的文本信息之前的多段文本,即历史对话,然后将该多段文本作为初始对话集合,再根据初始对话集合确定对话主题,并判断
文本信息与对话主题的相关度,并将文本信息与对话主题的相关度确定为文本信息与初始对话集合之间的相关度。作为一种示例,交互设备中可以预先保存多个对话主题,其中,每个对话主题中可以对应多个对话模板,然后检测初始对话集合命中各个对话主题的对话模板的数量,并将命中对话模板数量最多的对话主题确定为目标对话主题。然后再判断当前输入的文本信息命中目标对话主题中对话模板的数量,其命中对话模板的数量与该文本信息和初始对话集合之间的相关度呈正相关。
113.可选地,初始对话集合与当前输入的文本信息之间的间隔时长不超过预设时长,从而保证初始对话集合的有效性。
114.作为另一种示例,例如,对前n轮对话对问题进行拼接形成a作为当前场景的主题表示,b表示为当前输入文本信息,然后将a和b共同输入bert模型,可以得到bert模型输出的a和b的相似程度,即a和b主题相关程度。
115.作为另一种方式,步骤2026的具体实施方式可以为:根据初始对话集合确定交互设备的当前对话场景;获取当前对话场景与文本信息之间的相关度,并将当前对话场景与文本信息的相关度确定为文本信息与初始对话集合之间的相关度。
116.作为一种示例,交互设备中可以预先配置有文本语义模型,该文本语义模型可以用于识别对话场景和文本信息之间的相关度,其中,文本语义模型预先基于多个样本对话场景和多个样本文本信息训练得到。交互设备可以根据初始对话集合确定交互设备的当前对话场景,具体的确定方式可以参考上述确定对话主题的方式。然后,将当前对话场景和文本信息输入至文本语义模型,获得文本信息与初始对话集合之间的相关度。
117.2027、将相关度确定文本语义模态表示特征。
118.在本实施方式中,通过对asr识别的文本进行意图识别,判断当前输入文本与之前多轮上文信息的语音相关程度,以判断当前输入是否在相同的聊天主题/场景中。如果主题相差太大,则表明当前目标对象很大程度上不是在对交互设备进行交流,从而可以准确识别目标对象的对话意图。
119.作为一种示例,文本语义模型的构建方式可以如图9所示,首先获取历史对话和当前文本,基于历史对话和当前文本确定文本主题表示特征,在基于文本主题表示特征训练文本语义模型。
120.在又一种实施方式中,请再次参阅图5,步骤202具体还可以包括以下步骤:
121.2028、从图像信息中识别出目标对象的面部特征。
122.其中,交互设备中可以预先配置有面部特征识别模型,该面部特征识别模型可以预先基于多个样本图像信息和多个样本面部特征训练得到。交互设备可以将图像信息输入至面部特征识别模型中,从而得到目标对象的面部特征。
123.2029、基于面部特征确定视觉模态表示特征。
124.可选地,面部特征包括面部关键点特征、唇部关键点特征以及面部位置特征中的一种或多种。可选地,面部特征还可以包括面部轮廓特征、表情特征、瞳孔位置特征等。
125.作为一种方式,交互设备可以将面部特征输入到预先训练好的视觉模型,由于视觉模型将上述多种面部特征整合为视觉模态表示特征。
126.作为一种示例,视觉模型的构建方式可以如图10所示,首先对图像信息进行特征检测和识别,识别得到面部关键点特征、唇部关键点特征以及面部位置特征,再基于面部关
键点特征、唇部关键点特征以及面部位置特征训练得到视觉模型。
127.在本实施方式中,通过从图像信息中识别出目标对象的面部特征,基于面部特征确定视觉模态表示特征,从而能够根据目标对象的面部特征判断目标对象在交互时,其面部是否在正常对话范围内以及面部是否朝向交互设备,若是,可以表明目标对象很可能是在与交互设备对话,进而提升了意图识别准确性。
128.203、根据听觉模态表示特征、文本语义模态表示特、视觉模态表示特征,确定表示特征集合。
129.204、根据表示特征集合,生成意图分析结果,其中,意图分析结果表征目标对象是否有与交互设备对话的意图。
130.在一些实施方式中,步骤204的具体实施方式可以为:将表示特征集合输入至预先训练好的意图判别模型,获取意图判别模型输出意图判别结果,获取意图判别模型输出的意图分析结果。其中,意图判别模型可以预先基于多个样本听觉模态表示特征、样本文本语义模态表示特、样本视觉模态表示特征、样本意图分析结果训练得到。
131.在一些实施方式中,在步骤202、对语音信息进行语音识别处理之前,交互设备可以检测接收到的语音信息是否是目标对象发出的语音,若是,则可以执行步骤202、对语音信息进行语音识别处理。可选地,交互设备可以结合目标对象的图像信息和语音信息判断语音信息是否是目标对象发出的语音,例如,若根据图像信息确定目标对象的嘴型与语音信息匹配,则可以确定语音信息是目标对象发出的语音。
132.考虑到交互设备接收到的语音信息可能不是来自目标对象,例如电子设备发出的广告语音等,在本实施方式中,通过检测接收到的语音信息是否是目标对象发出的语音,若是,则可以执行对语音信息进行语音识别处理,从而能够进一步提升意图识别的准确性。
133.图11为本技术实施例提供的对话意图识别装置,该对话意图识别装置包括:信息获取模块31、表示特征集合确定模块32以及意图分析结果生成模块33。其中:
134.信息获取模块31,用于在目标对象与交互设备交互的过程中,获取目标对象的语音信息和图像信息。
135.表示特征集合确定模块32,用于根据语音信息和图像信息确定表示特征集合,表示特征集合中包括以下的一种或多种:听觉模态表示特征、视觉模态表示特征、文本语义模态表示特征。
136.意图分析结果生成模块33,用于根据表示特征集合,生成意图分析结果,其中,意图分析结果表征目标对象是否有与交互设备对话的意图。
137.可选地,表示特征集合确定模块32,包括:
138.表示特征识别单元,用于对语音信息进行语音识别处理,得到听觉模态表示特征和文本语义模态表示特征,并对图像信息进行图像识别处理,得到视觉模态表示特征。
139.表示特征集合确定单元,用于根据听觉模态表示特征、文本语义模态表示特、视觉模态表示特征,确定表示特征集合。
140.可选地,表示特征识别单元,具体用于:
141.基于语音信息得到声源信息和音频信息。
142.提取声源信息中的声源方位特征和声源距离特征,并提取音频信息中的音频特征。
143.将声源方位特征、声源距离特征以及音频特征进行融合,得到融合语音特征。
144.根据融合语音特征确定听觉模态表示特征。
145.可选地,表示特征识别单元,具体用于:
146.从预先划分好的多个第一区域中获取声源信息对应的区域作为目标第一区域,其中,多个第一区域以交互设备为中心,且按照指定角度均匀划分。
147.将目标第一区域对应的特征向量位确定为声源方位特征。
148.可选地,表示特征识别单元,具体还用于:从预先划分好的多个第二区域中获取声源信息对应的区域作为目标第二区域,其中,多个第二区域以交互设备为起始点,且按照指定距离均匀划分。
149.将目标第二区域对应的特征向量位确定为声源方位特征。
150.可选地,表示特征识别单元,具体还用于:从图像信息中识别出目标对象的面部特征;
151.基于面部特征确定视觉模态表示特征。
152.可选地,面部特征包括面部关键点特征、唇部关键点特征以及面部位置特征中的一种或多种。
153.可选地,表示特征识别单元,具体还用于:
154.基于语音信息得到文本信息。
155.获取文本信息与初始对话集合之间的相关度,其中,初始对话集合包括交互设备中在文本信息之前输入的多段文本。
156.将相关度确定文本语义模态表示特征。
157.可选地,表示特征识别单元,具体还用于:
158.根据初始对话集合确定交互设备的当前对话场景。
159.获取当前对话场景与文本信息之间的相关度,并将当前对话场景与文本信息的相关度确定为文本信息与初始对话集合之间的相关度。
160.可选地,意图分析结果生成模块33,具体用于:将表示特征集合输入至预先训练好的意图判别模型,获取意图判别模型输出意图判别结果,获取意图判别模型输出的意图分析结果。
161.图12是本技术实施例提供的一种对话意图识别设备的结构示意图,如图6所示,对话意图识别设备包括存储器43和处理器44。
162.存储器43,用于存储处理器44可执行指令的存储器。
163.处理器44被配置为执行上述实施例提供的方法。
164.对话意图识别设备还包括接收器40和发送器41。接收器40用于接收外部设备发送的指令和数据,发送器41用于向外部设备发送指令和数据。
165.本技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行以实现本公开上述实施例中任一实施例提供的方法。
166.其中,计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
167.本技术实施例还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取
计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
168.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本技术的真正范围和精神由下面的权利要求书指出。
169.应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求书来限制。

技术特征:


1.一种对话意图识别方法,其特征在于,包括:在目标对象与交互设备交互的过程中,获取目标对象的语音信息和图像信息;根据所述语音信息和所述图像信息确定表示特征集合,所述表示特征集合中包括以下的一种或多种:听觉模态表示特征、视觉模态表示特征、文本语义模态表示特征;根据所述表示特征集合,生成意图分析结果,其中,所述意图分析结果表征所述目标对象是否有与交互设备对话的意图。2.根据权利要求1所述的方法,其特征在于,根据所述语音信息和所述视频信息确定表示特征集合,包括:对所述语音信息进行语音识别处理,得到所述听觉模态表示特征和所述文本语义模态表示特征,并对所述图像信息进行图像识别处理,得到视觉模态表示特征;根据所述听觉模态表示特征、所述文本语义模态表示特、所述视觉模态表示特征,确定所述表示特征集合。3.根据权利要求2所述的方法,其特征在于,所述对所述语音信息进行语音识别处理,得到所述听觉模态表示特征,包括:基于所述语音信息得到声源信息和音频信息;提取所述声源信息中的声源方位特征和声源距离特征,并提取所述音频信息中的音频特征;将所述声源方位特征、所述声源距离特征以及音频特征进行融合,得到融合语音特征;根据所述融合语音特征确定所述听觉模态表示特征。4.根据权利要求3所述的方法,其特征在于,所述提取所述声源信息中的声源方位特征包括:从预先划分好的多个第一区域中获取所述声源信息对应的区域作为目标第一区域,其中,所述多个第一区域以交互设备为中心,且按照指定角度均匀划分;将所述目标第一区域对应的特征向量位确定为所述声源方位特征。5.根据权利要求3所述的方法,其特征在于,所述提取所述声源信息中的声源距离特征包括:从预先划分好的多个第二区域中获取所述声源信息对应的区域作为目标第二区域,其中,所述多个第二区域以交互设备为起始点,且按照指定距离均匀划分;将所述目标第二区域对应的特征向量位确定为所述声源方位特征。6.根据权利要求2所述的方法,其特征在于,所述对所述图像信息进行图像识别处理,得到视觉模态表示特征,包括:从所述图像信息中识别出所述目标对象的面部特征;基于所述面部特征确定所述视觉模态表示特征。7.根据权利要求6所述的方法,其特征在于,所述面部特征包括面部关键点特征、唇部关键点特征以及面部位置特征中的一种或多种。8.根据权利要求1所述的方法,其特征在于,所述对所述语音信息进行语音识别处理,得到文本语义模态表示特征,包括:基于所述语音信息得到文本信息;获取所述文本信息与初始对话集合之间的相关度,其中,所述初始对话集合包括交互
设备中在所述文本信息之前输入的多段文本;将所述相关度确定所述文本语义模态表示特征。9.根据权利要求8所述的方法,其特征在于,所述获取所述文本信息与初始对话集合之间的相关度,包括:根据所述初始对话集合确定交互设备的当前对话场景;获取所述当前对话场景与所述文本信息之间的相关度,并将所述当前对话场景与所述文本信息的相关度确定为所述文本信息与初始对话集合之间的相关度。10.根据权利要求1-9任一项所述的方法,其特征在于,所述根据所述表示特征集合,生成意图分析结果,其中,所述意图分析结果表征所述目标对象是否有与交互设备对话的意图,包括:将所述表示特征集合输入至预先训练好的意图判别模型,获取所述意图判别模型输出意图判别结果,获取所述意图判别模型输出的意图分析结果。11.一种对话意图识别装置,包括:信息获取模块,用于在目标对象与交互设备交互的过程中,获取目标对象的语音信息和图像信息;表示特征集合确定模块,用于根据所述语音信息和所述图像信息确定表示特征集合,所述表示特征集合中包括以下的一种或多种:听觉模态表示特征、视觉模态表示特征、文本语义模态表示特征;意图分析结果生成模块,用于根据所述表示特征集合,生成意图分析结果,其中,所述意图分析结果表征所述目标对象是否有与交互设备对话的意图。12.一种对话意图识别设备,包括:存储器,处理器;存储器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为用于实现如权利要求1-10任一项所述的对话意图识别方法。13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-10任一项所述的对话意图识别方法。

技术总结


本申请提供一种对话意图识别方法、装置、设备以及存储介质,该方法包括:在目标对象与交互设备交互的过程中,获取目标对象的语音信息和图像信息;根据所述语音信息和所述图像信息确定表示特征集合,所述表示特征集合中包括以下的一种或多种:听觉模态表示特征、视觉模态表示特征、文本语义模态表示特征;根据所述表示特征集合,生成意图分析结果,其中,所述意图分析结果表征所述目标对象是否有与交互设备对话的意图。本申请能够解决对话意图识别方式单一、识别范围有限的问题。识别范围有限的问题。识别范围有限的问题。


技术研发人员:

桑海岩 廉士国 王恺 邓慧 李苗苗

受保护的技术使用者:

联通大数据有限公司

技术研发日:

2021.07.15

技术公布日:

2023/1/16


文章投稿或转载声明

本文链接:http://www.wtabcd.cn/zhuanli/patent-1-69778-0.html

来源:专利查询检索下载-实用文体写作网版权所有,转载请保留出处。本站文章发布于 2023-01-22 11:31:07

发表评论

验证码:
用户名: 密码: 匿名发表
评论列表 (有 条评论
2人围观
参与讨论