本文作者:kaifamei

一种人机交互方法、系统、电子设备、存储介质及车辆与流程

更新时间:2025-12-27 14:04:51 0条评论

一种人机交互方法、系统、电子设备、存储介质及车辆与流程



1.本技术涉及汽车技术领域,特别是涉及一种人机交互方法、系统、电子设备、存储介质及车辆。


背景技术:



2.近些年,当前语音交互和视觉识别等技术已经广泛的应用起来,其中智能汽车领域越来越多的新上市车型都已经搭载了语音交互系统。一个简单语音交互系统包含:声音信号前处理、语音识别、语义理解、对话管理、自然语言生成、人声合成几个技术部分组成。在实际应用场景中,spe(squared prediction error,平方预测误差)模块主要利用信号处理的技术消除噪声、回声等,对获取到的声音做前处理,保证系统的信号清晰,做到让语音系统听清。asr(automatic speech recognition,自动语音识别技术)语音识别将声音信号转化为具体语音的文字文本;nlu(natural language understanding,自然语言理解)语言理解根据文字文本来理解用户的命令意图和重要的任务参数(数值、名词、时间、方位等);dm(data mart,数据集市)对话管理记录前后文,转化命令给系统同时转化反馈回复用于语言生成;nlg(natural language generation,自然语言生成)生成语言后通过tts(text-to-speech,语音合成)语言合成将回复通过扬声器反馈给用户。现有的语音交互系统中也存在诸多问题,车内的乘车人员口音、说话方式、说话习惯、口头禅不相同,噪音影响以及同音字、用户口音和说话方式差异使当前语音交互系统的识别准确率较低。
3.因此,如何实现在语音交互系统中,识别用户在人机交互中的个性化表述,提高人机交互识别结果的准确性及用户体验感,是本领域技术人员亟需解决的技术问题。


技术实现要素:



4.基于上述问题,本技术提供了一种人机交互方法、系统、电子设备及车辆,能够提高人机交互识别结果的准确性。
5.为解决上述问题,本技术实施例所提供的技术方案如下:
6.本技术第一方面提供了一种人机交互方法,包括:
7.获取目标发言者的交互信息和用户信息;
8.根据所述目标发言者的用户信息调用对应的用户识别模型,将所述目标发言者的交互信息输入所述用户识别模型进行识别,得到识别结果;
9.根据所述识别结果执行所述目标发言者的交互信息。
10.在一种可能的实现方式中,所述获取目标发言者的交互信息和用户信息之前,还包括:
11.获取车内图像,并对所述车内图像进行唇动检测,确定正在发言的目标发言者;
12.基于预先建立的人脸库,确定所述目标发言者的用户信息。
13.在一种可能的实现方式中,所述获取目标发言者的交互信息和用户信息之前,还包括:
14.根据车辆上传的用户个性化词语和初始模型确定用户识别模型;
15.所述根据车辆上传的用户个性化词语和初始模型确定用户识别模型,包括:
16.接收所述车辆上传的用户个性化词语;
17.根据接收到的所述用户个性化词语建立数据库;
18.根据所述数据库和初始模型确定用户识别模型。
19.在一种可能的实现方式中,所述根据所述数据库和初始模型确定用户识别模型包括:
20.获取初始模型以及每个用户的交互信息样本,所述交互信息样本由每个用户对应的、存储于数据库中的若干个用户个性化词语组成;
21.针对每个用户,将每个用户的交互信息样本分别输入所述初始模型进行训练,生成每个用户对应的用户识别模型。
22.在一种可能的实现方式中,所述用户个性化词语包括服务命令词语,所述服务命令词语用于表示所述交互信息的核心命令参数,所述车辆用于根据所述车辆的交互信息确定所述服务命令词语,所述数据库包括服务命令词语数据库;所述根据接收到的所述用户个性化词语建立数据库,包括:
23.根据接收到的所述服务命令词语建立所述服务命令词语数据库。
24.在一种可能的实现方式中,根据车辆上传的用户个性化词语确定用户识别模型,包括:
25.响应于接收到新的用户个性化词语,根据接收到的所述新的用户个性化词语对所述数据库进行增量更新;
26.根据更新后得到的所述数据库,对所述新的用户个性化词语对应的用户识别模型进行全量更新,得到更新完成的用户识别模型。
27.本技术第二方面提供了一种人机交互系统,所述系统包括:
28.检测,确定正在发言的目标发言者;基于预先建立的人脸库,确定所述目标发言者的用户信息;
29.数据库生成单元,用于接收车辆上传的用户个性化词语;根据接收到的用户个性化词语建立数据库;
30.模型训练单元,用于根据车辆上传的用户个性化词语和初始模型确定用户识别模型;
31.用户识别模型应用单元,用于获取目标发言者的交互信息和用户信息;根据所述目标发言者的用户信息调用对应的用户识别模型,将所述目标发言者的交互信息输入所述用户识别模型进行识别,得到识别结果;根据所述识别结果执行所述目标发言者的交互信息。
32.本技术第三方面提供一种电子设备,包括:处理器、存储器、系统总线;
33.所述处理器以及所述存储器通过所述系统总线相连;
34.所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行前述第一方面任一项所述的人机交互方法。
35.本技术第四方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有代码,当所述代码被运行时,运行所述代码的设备实现前述第一方面任一项所述的人机
交互方法。
36.本技术第五方面提供一种车辆,所述车辆包括中央电控模块,所述中央电控模块用于实现前述第一方面任一项所述的人机交互方法。
37.相较于现有技术,本技术具有以下有益效果:
38.本技术提供的人机交互方法,通过获取目标发言者的交互信息和用户信息;根据所述目标发言者的用户信息调用对应的用户识别模型,将所述目标发言者的交互信息输入所述用户识别模型进行识别,得到识别结果;根据所述识别结果执行所述目标发言者的交互信息,由此,对于每一个用户而言,在人机交互过程中,识别用户信息后动态切换自己的语言模型,就能够识别的更准,改良了人机交互过程中同音字、用户口音、说话方式和表述习惯差异所带来的识别不准确问题。针对不同用户提供个性化的交互体验,提高语音识别系统的准确性和灵活性。
附图说明
39.为更清楚地说明本实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
40.图1为本技术实施例所提供的一种人机交互方法流程图;
41.图2为本技术实施例所提供的一种人机交互方法流程图;
42.图3为本技术实施例所提供的数据库构建应用示意图;
43.图4为本技术实施例所提供的语音功能服务领域和服务功能划分示意图;
44.图5为本技术实施例所提供的对历史记录得到文本参数序列,进行概率统计的过程;
45.图6为本技术实施例所提供的概率分布的结果图;
46.图7为本技术实施例所提供的利用bi-lstm和历史记录文本训练语言模型;
47.图8为本技术实施例所提供的用户个人交互实用模型效果示意图;
48.图9为本技术实施例所提供的多个用户使用模型的效果示意图;
49.图10为本技术实施例所提供的一种人机交互系统结构图。
具体实施方式
50.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
51.正如前文所述,智能汽车领域越来越多的新上市车型都已经搭载了语音交互系统。一个简单语音交互系统包含:声音信号前处理、语音识别、语义理解、对话管理、自然语言生成、人声合成几个技术部分组成。各个部分各司其职,进行识别以及反馈工作,但是发明人经过研究发现,现阶段语音交互系统还有诸多问题,用户体验还不够好。主要有三个方向上的问题挑战需要未来更好的解决:第一个问题为噪音和多人语音的问题:车内语音由
于多变的环境和半开放、可能的多人场景,噪音一直是非常大的挑战,如何处理各种噪音、支持多人同时语音定向输入等能大大降低用户使用的时机要求,提高交互效率和较低交互成本。第二个问题,模型缺乏个性化的问题:在语音交互系统里面的算法模型等使用的是通用版本,是使用大量人员数据采集后的一个平均值,特别是在声学模型和语言模型而言个性化程度很低。而每个人或方言的口音、说话方式习惯和口头禅等也不一样,急需个性化的模型专属服务每一个车内的每一个用户。第三个问题为,系统知识和学习缺乏的问题。对于一个语音系统而言,识别和理解一旦模型和系统产品完成就不能够改变了,无论是识别还是理解都是固定的,错误就永远错误没有办法纠正;另一方面缺乏对知识、场景的了解考虑,往往容易出现张冠李戴、差之毫厘谬以千里的问题。
52.有鉴于此,本技术提供了一种人机交互方法、系统、电子设备及车辆。通过获取目标发言者的交互信息和用户信息;根据所述目标发言者的用户信息调用对应的用户识别模型,将所述目标发言者的交互信息输入所述用户识别模型进行识别,得到识别结果;根据所述识别结果执行所述目标发言者的交互信息,由此,对于每一个用户而言,在人机交互过程中,识别用户信息后动态切换自己的语言模型,就能够识别的更准,改良了人机交互过程中同音字、用户口音、说话方式和表述习惯差异所带来的识别不准确问题。针对不同用户提供个性化的交互体验,提高语音识别系统的准确性和灵活性。
53.本技术实施例所提供的方法可以由控制器执行,控制器可以控制语音交互系统中的各个功能模块,车内可以利用dms(driver monitoring system,驾驶员监控系统)摄像头识别驾驶员人脸身份、oms摄像头(舱内摄像头)识别座舱内其他乘客的身份,控制器可以在控制车内相应器件识别车内语音以及车内用户影像,在采集到相关信息后调用系统中相关模块实现识别功能。
54.以下通过一个实施例,对本技术提供的一种人机交互方法进行说明。请参考图1,图1为本技术实施例所提供的一种人机交互方法流程图,包括:
55.s101、获取目标发言者的交互信息和用户信息。
56.其中,用户信息指车内乘车人员的身份信息,该用户信息可以通过人脸识别得到,在实际应用场景中,可以利用dms摄像头识别驾驶员身份、oms摄像头(occupant monitoring system,用户监控系统)识别座舱内其他乘客的身份。
57.一般情况下,可以预先建立人脸库,将车主和常用车的其他用户的人脸信息储存于人脸库中,在一些可能实现的方法中,可以对人脸库中的各个人脸对应的用户赋予用户标识,例如用户id。并且在实际应用场景中,也可以对陌生人员进行识别构建专属用户id。摄像头获取车内图像,并对车内图像实现实时监控,对车内图向进行唇动检测,识别出车内所有用户中的目标发言者,在预先建立的人脸库中寻待该目标发言者对应的用户信息。
58.关于目标发言者的确定,可以根据车内用户落座位置和系统中的预设配置选取,例在应用过程中通过摄像头获取车内图像,即可以知道当前用车的人数和身份、落座位置。并将获取得到的各个用户信息同步到语音交互系统中作为配置文件。在实际应用场景中,可以只获取当前车内用户的人数以及人脸图像,根据这些生成配置文件,例如当前车内三个用户,分别为用户101、用户102和用户103。也可以同时获取当前车内人员所在位置,根据所在位置主驾驶、副驾驶和后排位置设置人员优先级,例如设置优先级a为最高、b次之、c最低,则获取到当前车内用户信息后,对优先级进行标注,例如用户102位于主驾驶,设置主驾
驶位置优先级最高,则生成配置文件用户a102。需要说明的是,此处的用户id仅为代表当前用户身份信息的配置编号,其内容不做限制,可以根据实际需求以及用户喜好进行适应性调整。另一方面,特可以根据实际需求在系统中预设用户101为最高优先级,则在实际应用中无论该用户位于车内,哪个位置,当该用户发言时,均将该用户识别为目标发言者。
59.其中,用户交互信息包括语音交互信息和非语音交互信息。语音交互信息可以为用户的语音控制指令“播放音乐《xx》”,非语音交互信息可以为用户在车内触摸屏中手动输入的文字内容,例如,在车内触摸屏中地图导航输入目的地名称“塘沽公园”,其中“塘沽海边公园”为用户对于固有地名“塘沽外滩公园”个性化命名的特殊名词。其中重要信息的是特殊名词、命名实体,作为未来学习的数据基础。
60.s102、根据所述目标发言者的用户信息调用对应的用户识别模型。
61.根据当前目标发言者的用户信息,从识别模型库中调用当前目标发言者对应的用户识别模型。所述识别模型库包括若干个与用户信息一一对应的用户识别模型。
62.s103、根据所述识别结果执行所述目标发言者的交互信息。
63.根据对应的用户识别模型,精确识别出当前目标发言者的表述内容,根据该识别结果控制车辆相关功能,执行该交互信息。
64.通过获取目标发言者的交互信息和用户信息;根据所述目标发言者的用户信息调用对应的用户识别模型,将所述目标发言者的交互信息输入所述用户识别模型进行识别,得到识别结果;根据所述识别结果执行所述目标发言者的交互信息,由此,对于每一个用户而言,在人机交互过程中,识别用户信息后动态切换自己的语言模型,就能够识别的更准,改良了人机交互过程中同音字、用户口音、说话方式和表述习惯差异所带来的识别不准确问题。针对不同用户提供个性化的交互体验,提高语音识别系统的准确性和灵活性。
65.以下通过一个实施例,对本技术提供的一种人机交互方法进行说明。请参考图2,图2为本技术实施例所提供的一种人机交互方法流程图,包括:
66.s201、接收所述车辆上传的用户个性化词语,根据接收到的所述用户个性化词语建立数据库。
67.用户个性化词语为从用户交互信息中提取获得,用户交互信息包括语音交互信息和非语音交互信息。用户个性化词语包括服务命令词语,服务命令词语用于表示所述交互信息的核心命令参数,车辆用于根据所述车辆的交互信息确定所述服务命令词语,数据库包括服务命令词语数据库;根据接收到的所述服务命令词语建立所述服务命令词语数据库。
68.关于数据库的工作流程可以参见图3,所述图3为本技术实施例所提供的数据库构建应用示意图包括以下步骤:
69.步骤a:利用埋点数据,生成用户操作的日志。
70.将用户在车上的语音交互和非语音交互下的交互操作记录下来,由埋点数据采集到本地系统中,成为操作日志。
71.步骤b:分类记录交互历史的信息。
72.如图3所示,数据库包括三个模块,hive数据仓库,本地历史数据分类和抽取计算模块,个人记录库存储模块,hive是基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表。
73.分类和抽取计算模块可以根据服务领域对所述用户交互信息进行分类处理,获得若干个服务领域信息。因为不同的功能领域出现的语言文本会有很大的差异,比如地名、建筑名就容易在地图导航功能中出现,所以首先需要对历史交互记录进行分类处理。其中服务领域指获取到的指令涉及的服务方向,请参考图4,图4为本技术实施例所提供的语音功能服务领域和服务功能划分示意,图4中包括的服务领域如下:车设控制、系统设置、驾驶设置、智能服务、应用服务和互联服务。一个服务领域中又包含若干个服务功能,应用服务(服务领域)又能分解成若干个服务功能,图4中应用服务包括服务功能如下:地图导航、音乐、视频、通讯、有声、日程、生活、搜索、工具和用车。车设控制包括服务功能如下:空调、座椅、车门、车窗、车外灯、车内灯和雨刷。系统设置包括服务功能如下:音响、屏幕、无线网、wifi、蓝牙、热点和充电。智能服务包括服务功能如下:智能推荐、智能提醒、智能通知、智能情感和负一屏。其中,所谓的负一屏,就是将一些常用的软件或者是信息服务,聚合到一页中,做的出的负一屏能够为用户带来非常多的便捷性。互联服务包括服务功能如下:远程车控、手机投屏、家居互联、办公互联。在实际实现过程中,将当前获取得到的用户交互信息分类处理,可以利用规则化的聚类算法直接整理本智能车的用户交互历史记录。
74.步骤c:抽取服务命令词语。
75.所述服务命令词语为所述服务功能信息的核心命令参数。在实际应用场景中,主要是抽取应用服务中的个性化词语,即重要核心命令参数,比如抽取记录中导航搜索和选择的地点、地名;音乐播放的歌名、歌手;视频的名称、有声服务名称等。积累这些与用户使用个性化相关专有名词,将获取得到的个性胡词语存储生成服务命令词语数据库。所述服务命令词语数据库包括若干个服务命令词语。
76.步骤d:将服务命令词语与用户人脸关联。
77.所述分类信息包括服务功能和服务动作。分类信息用于表示对交互信息的是用动作以及该动作涉及的服务功能。在一些可能的实现方式中,也还可以包括服务领域。关于分类信息的内容可以根据应用过程中的实际需求进行调整。服务动作为使用当前服务功能的具体实现步骤,例如地图导航的搜索、音乐的歌名点歌和百科的搜索等。
78.获取上述步骤中的数据信息,将个性化词语的分类信息、个性化词语和使用该个性化词语的用户关联起来,生成一条历史记录得到某一时刻与用户关联后的个人历史交互数据。例如可以记录为:a101(用户id)
‑‑
应用服务(服务领域)
‑‑
地图导航(服务功能)
‑‑
天府广场(个性化词语),或者可以记录为a101(用户id)
‑‑
应用服务(服务领域)
‑‑
地图导航(服务功能)
‑‑
搜索(服务动作)
‑‑
天府广场(个性化词语)。在一些可以实现的应用过程中,也可以记录该指令的获取时间。进而可以设定时间,来筛选某个时间段的历史记录数据,用以后续的模型训练以及模型更新等。
79.在实际应用场景中,关联后生成的数据记录可以为根据表格形式记录,用户可以根据需求调用某条历史记录,当发现数据记录有误时,可以自主修改调整。例如可以记录如图4,示例如下:时间-身份(用户信息)-领域(服务领域)-功能(服务功能)-参数(服务命令词语),20220811-wey-地图导航-搜索-参数,20220811-欧拉-音乐-歌名点歌-起风了,20220812-坦克-百科-搜索-玛奇朵。
80.s202、获取初始模型以及每个用户的交互信息样本。
81.所述交互信息样本由每个用户对应的、存储于数据库中的若干个用户个性化词语
组成。从个性化信息库中获取若干条历史记录数据,选取依据可以为用户id,例如获取用户a101相关的所有历史记录数据。
82.s203、根据所述数据库和初始模型确定用户识别模型。
83.针对每个用户,将每个用户的交互信息样本分别输入所述初始模型进行训练,生成每个用户对应的用户识别模型。
84.在本地离线状态下,将分类抽取好的历史记录数据用于训练语音算法相关模型,其中这里利用个性化词语和个性化词语使用信息(分类信息)可以优先训练属于每一个乘客专属的语音识别算法下的语言模型和词汇模型,也可以优化语义理解中的ner分词模型。将记录下的参数文本信息进行处理后就可以用于本地训练。
85.以n-gram的语言模型为例,将用户使用的记录文本频次进行统计,得到文本的概率分布情况(包括语言交互的记录和非语言交互的记录)。具体如下图5至图7所示,图5为本技术实施例所提供的对历史记录得到文本参数序列,进行概率统计的过程。n-gram是一种统计语言模型,用来根据前(n-1)个item来预测第n个item。在应用层面,这些item可以是音素(语音识别应用)、字符(输入法应用)、词(分词应用)或碱基对(基因信息)。在本技术举例应用过程中,收集大批文本数据作为训练数据,估计用户使用的文本,目标1,至句子n,此处n为大于0的正整数,第n个词的出现只与前面n-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计n个词同时出现的次数得到。应用n-gram的语言模型计算文本的文本参数序列,例如“猫”“喜欢”“吃”“火腿”,“狗”“喜欢”“吃”“火腿”,“猫”“喜欢”“抓”“老鼠”,“火腿”“吃”“猫”“喜欢”,根据上述各个文本参数序列进行链式计算,具体概率计算过程如图6,将各个概率相乘,例如本示例中的2/3,2/2,2/3,1/1,2/3,求得结果概率分布值0.296,图6为概率分布的结果。
86.再利用深度学习网络rnn(循环神经网络)或bi-lstm(双向长短期记忆网络)来训练新的语言模型,为了考虑上下文对语音识别的影响,实现更好的效果,可以采用bi-lstm来训练语言识别算法。图7为本技术实施例所提供的利用bi-lstm和历史记录文本训练语言模型,图中所示bi-lstm神经网络结构模型分为2个独立的lstm(长短期记忆网络),输入序列分别以正序和逆序输入至2个lstm神经网络进行特征提取,将2个输出向量(即提取后的特征向量)进行拼接后形成的词向量作为该词的最终特征表达。bi-lstm的模型设计理念是使t时刻所获得特征数据同时拥有过去和将来之间的信息。
87.离线训练好的每一个语言模型,就可以提供给每一个用户语言交互的使用。将训练完成的识别模型对应的用户信息关联,得到用户识别模型,在实际应用过程中,可以将模型存储至识别模型库。所述识别模型库包括若干个成员识别模型。
88.在一些可能的实现方式中,响应于接收到新的用户个性化词语,根据接收到的所述新的用户个性化词语对所述数据库进行增量更新;根据更新后得到的所述数据库,对所述新的用户个性化词语对应的用户识别模型进行全量更新,得到更新完成的用户识别模型。
89.本技术提供的人机交互方法,通过对车内用户配置专属的识别模型,由此,对于每一个用户而言,在人机交互过程中,识别用户信息后动态切换自己的语言模型,就能够识别的更准,改良了人机交互过程中同音字、用户口音、说话方式和表述习惯差异所带来的识别不准确问题。针对不同用户提供个性化的交互体验,提高语音识别系统的准确性和灵活性,
识别效果可以参见图8,图8为本技术实施例所提供的用户个人交互实用模型效果示意图,获取目标发言者的语句,应用人脸识别出当前目标发言者为男主人(用户信息),调取男主人的用户识别模型,识别男主人语句。在一些可能实现的方式中,可以应用声学模型获取目标发言者的语句,先将语句转化为拼音信息,在获取到用户对应的用户识别模型后,再将拼音信息输入对应的用户识别模型。对于每一个用户而言,个人语音识别模型库中动态切换自己的语言模型,就能够识别的更准。
90.图8为本技术实施例所提供的多个用户使用模型的效果示意图,应用声学模型获取目标发言者的语句,先将语句转化为拼音信息,识别目标发言者身份信息,根据获取到的身份信息调用与该身份信息对应的用户识别模型,再将拼音信息输入对应的用户识别模型中,进行识别。例如图9中,声学模型获取到用户1的拼音信息为“woyaoqusiwei”识别出用户1为男主人(用户信息),调用男主人对应的用户语言模型,识别出用户1的语句为“我要去四维”,声学模型获取到用户2的拼音信息为“daohangqusiweidasha”,识别出用户2的用户信息为女主人,调用女主人对应的用户识别模型,将拼音信息输入该模型中,识别出用户2的交互信息为“导航去四威大厦”,其中“四威大厦”和“四维”为不同用户对同一个地点的表述形式。因此,对于多个用户而言,通过声源定位和人脸信息就能够在个人语音识别模型库中动态切换属于各自的语言模型,提供符合该用户使用历史记录和表达习惯的语音模型,识别也会更准确。
91.以上为本技术实施例所提供的人机交互方法的一些具体实现方式,基于此,本技术还提供了对应的用于人机交互的系统。下面将从功能模块化的角度对本技术实施例所提供的系统进行介绍。图10为本技术实施例所提供的一种人机交互系统结构图。
92.所述系统包括:
93.人脸识别系统单元110,用于获取车内图像,并对所述车内图像进行唇动检测,确定正在发言的目标发言者;基于预先建立的人脸库,确定所述目标发言者的用户信息;
94.数据库生成单元111,用于接收车辆上传的用户个性化词语;根据接收到的用户个性化词语建立数据库;
95.模型训练单元112,用于根据车辆上传的用户个性化词语和初始模型确定用户识别模型;
96.用户识别模型应用单元113,用于获取目标发言者的交互信息和用户信息;根据所述目标发言者的用户信息调用对应的用户识别模型,将所述目标发言者的交互信息输入所述用户识别模型进行识别,得到识别结果;根据所述识别结果执行所述目标发言者的交互信息。
97.所述系统还包括:
98.目标发言者确定单元,用于获取车内图像,并对所述车内图像进行唇动检测,确定正在发言的目标发言者;
99.用户信息单元确定模块,用于基于预先建立的人脸库,确定所述目标发言者的用户信息。
100.所述系统还包括:
101.用户识别模型确定单元,用于根据车辆上传的用户个性化词语和初始模型确定用户识别模型。
102.所述用户识别模型确定单元,具体用于,接收所述车辆上传的用户个性化词语;根据接收到的所述用户个性化词语建立数据库;根据所述数据库和初始模型确定用户识别模型。
103.本技术实施例还提供了对应的设备以及计算机存储介质,用于实现本技术实施例所提供的人机交互方法方案。
104.其中,所述设备包括存储器和处理器,所述存储器用于存储指令或代码,所述处理器用于执行所述指令或代码,以使所述设备执行本技术任一实施例所述的人机交互方法。
105.所述计算机存储介质中存储有代码,当所述代码被运行时,运行所述代码的设备实现本技术任一实施例所述的人机交互方法。
106.本技术还提供了一种车辆,所述车辆包括本技术实施例第一方面提供的人机交互方法或第二方面提供的人机交互系统或者第三方面的电子设备。
107.以上对本技术所提供的一种人机交互方法、系统、电子设备、存储介质及车辆进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以对本技术进行若干改进和修饰,这些改进和修饰也落入本技术权利要求的保护范围内。
108.应当理解,在本技术中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:只存在a,只存在b以及同时存在a和b三种情况,其中a,b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
109.还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
110.结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
111.对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术
将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

技术特征:


1.一种人机交互的方法,其特征在于,所述方法包括:获取目标发言者的交互信息和用户信息;根据所述目标发言者的用户信息调用对应的用户识别模型,将所述目标发言者的交互信息输入所述用户识别模型进行识别,得到识别结果;根据所述识别结果执行所述目标发言者的交互信息。2.根据权利要求1所述的方法,其特征在于,所述获取目标发言者的交互信息和用户信息之前,还包括:获取车内图像,并对所述车内图像进行唇动检测,确定正在发言的目标发言者;基于预先建立的人脸库,确定所述目标发言者的用户信息。3.根据权利要求1所述的方法,其特征在于,所述获取目标发言者的交互信息和用户信息之前,还包括:根据车辆上传的用户个性化词语和初始模型确定用户识别模型;所述根据车辆上传的用户个性化词语和初始模型确定用户识别模型,包括:接收所述车辆上传的用户个性化词语;根据接收到的所述用户个性化词语建立数据库;根据所述数据库和初始模型确定用户识别模型。4.根据权利要求3所述的方法,其特征在于,所述根据所述数据库和初始模型确定用户识别模型包括:获取初始模型以及每个用户的交互信息样本,所述交互信息样本由每个用户对应的、存储于数据库中的若干个用户个性化词语组成;针对每个用户,将每个用户的交互信息样本分别输入所述初始模型进行训练,生成每个用户对应的用户识别模型。5.根据权利要求3所述的方法,其特征在于,所述用户个性化词语包括服务命令词语,所述服务命令词语用于表示所述交互信息的核心命令参数,所述车辆用于根据所述车辆的交互信息确定所述服务命令词语,所述数据库包括服务命令词语数据库;所述根据接收到的所述用户个性化词语建立数据库,包括:根据接收到的所述服务命令词语建立所述服务命令词语数据库。6.根据权利要求3至5任一项所述的方法,其特征在于,根据车辆上传的用户个性化词语确定用户识别模型,包括:响应于接收到新的用户个性化词语,根据接收到的所述新的用户个性化词语对所述数据库进行增量更新;根据更新后得到的所述数据库,对所述新的用户个性化词语对应的用户识别模型进行全量更新,得到更新完成的用户识别模型。7.一种人机交互系统,其特征在于,所述系统包括:人脸识别系统单元,用于获取车内图像,并对所述车内图像进行唇动检测,确定正在发言的目标发言者;基于预先建立的人脸库,确定所述目标发言者的用户信息;数据库生成单元,用于接收车辆上传的用户个性化词语;根据接收到的用户个性化词语建立数据库;模型训练单元,用于根据车辆上传的用户个性化词语和初始模型确定用户识别模型;
用户识别模型应用单元,用于获取目标发言者的交互信息和用户信息;根据所述目标发言者的用户信息调用对应的用户识别模型,将所述目标发言者的交互信息输入所述用户识别模型进行识别,得到识别结果;根据所述识别结果执行所述目标发言者的交互信息。8.一种电子设备,其特征在于,包括:处理器、存储器、系统总线;所述处理器以及所述存储器通过所述系统总线相连;所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行权利要求1-6任一项所述的人机交互方法。9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有代码,当所述代码被运行时,运行所述代码的设备实现如权利要求1-6任一项所述的人机交互方法。10.一种车辆,其特征在于,所述车辆包括中央电控模块,所述中央电控模块用于执行所述权利要求1-6任一项所述的人机交互方法。

技术总结


本申请公开了一种人机交互方法、系统、电子设备及车辆,通过获取目标发言者的交互信息和用户信息;根据所述目标发言者的用户信息调用对应的用户识别模型,将所述目标发言者的交互信息输入所述用户识别模型进行识别,得到识别结果;根据所述识别结果执行所述目标发言者的交互信息,针对不同用户提供个性化的交互体验。有效的解决识别过程中不考虑用户个性化习惯的问题,提高了人机交互结果的准确性及用户体验感。体验感。体验感。


技术研发人员:

胡束芒 林枝叶 颉毅 赵龙 吴会肖

受保护的技术使用者:

长城汽车股份有限公司

技术研发日:

2022.10.21

技术公布日:

2023/1/17


文章投稿或转载声明

本文链接:http://www.wtabcd.cn/zhuanli/patent-1-69771-0.html

来源:专利查询检索下载-实用文体写作网版权所有,转载请保留出处。本站文章发布于 2023-01-22 11:27:04

发表评论

验证码:
用户名: 密码: 匿名发表
评论列表 (有 条评论
2人围观
参与讨论