图像处理方法、计算机程序产品、存储介质及电子设备与流程

更新时间:2025-12-20 22:46:24 0条评论

默认

图像处理方法、计算机程序产品、存储介质及电子设备与流程

1.本技术涉及图像处理技术领域，具体而言，涉及一种图像处理方法、计算机程序产品、存储介质及电子设备。

背景技术：

2.在自动驾驶中，常常需要基于车载摄像头采集的图像在鸟瞰视角(bird’s eye view，简称bev)空间中分割出车道线，以便执行后续的驾驶规划等操作。
3.在现有技术中，通常会从车载摄像头采集的图像中提取图像特征并估计图像的深度信息，然后利用估计出的深度信息将图像特征转换到bev空间下，最后利用bev空间下的特征进行车道线的分割。然而，此种方法估计出的深度信息本就具有较大的误差，再利用深度信息将图像特征转换到bev空间下更是进一步扩大了误差，导致车道线分割结果精度较低。

技术实现要素：

4.本技术实施例的目的在于提供一种图像处理方法、计算机程序产品、存储介质及电子设备，以改善上述技术问题。
5.为实现上述目的，本技术提供如下技术方案：
6.第一方面，本技术实施例提供一种图像处理方法，包括：获取待处理图像，并利用主干网络提取所述待处理图像的图像特征；获取多个初始查询特征；其中，每个初始查询特征对应bev空间中的一个子区域，所述bev空间为所述待处理图像的拍摄范围在鸟瞰视角下对应的平面区域；将所述多个初始查询特征输入解码网络，与同样输入所述解码网络的所述图像特征进行交互计算，得到对应的多个最终查询特征；基于所述多个最终查询特征，利用分割网络得到对应的多个子区域内的目标分割结果；根据所述多个子区域内的目标分割结果，得到所述bev空间中的总体目标分割结果。
7.上述方法中的目标可以包括、但不限于各类地图元素，例如车道线、可行驶区域、车辆、行人等一种或多种元素，该方法的有益效果包括：
8.其一，由于初始查询特征是与bev空间中的子区域对应的，因此与图像特征进行交互计算后，直接就可以得到与bev空间中的子区域相对应的最终查询特征，这一过程并不需要将图像特征转换到bev空间下，从而避免了转换带来的误差，显著提高了在bev空间下进行目标分割的精度。
9.其二，由于最终查询特征与bev空间中的子区域具有对应关系，因此根据每个最终查询特征，直接就能得到相应子区域中的目标分割结果，然后通过拼合各子区域中的目标分割结果，很容易就可以得到bev空间中的总体目标分割结果。由于各子区域之间的相对位置关系是清楚的，因此各子区域中的目标分割结果应该如何拼合也是十分清楚的，从而有利于获得精度更高的目标分割结果。
10.在第一方面的一种实现方式中，所述获取多个初始查询特征，包括：获取所述多个
初始查询特征对应的多组坐标；其中，每组坐标至少包括x坐标和y坐标，且每个初始查询特征对应的x坐标和y坐标位于所述bev空间中与该初始查询特征对应的子区域内；利用查询特征编网络对所述多组坐标进行编码，得到对应的所述多个初始查询特征；其中，一个初始查询特征的维度大于一组坐标的维度。
11.在上述实现方式中，由于初始查询特征是对位于bev空间中的子区域内的坐标进行编码得到的，相当于将初始查询特征定义在了bev空间中的子区域内，因此其与图像特征进行交互计算后，直接就可以得到与bev空间中的子区域相对应的最终查询特征，而不需要将图像特征转换到bev空间下，从而避免了转换带来的误差，显著提高了在bev空间下进行目标分割的精度。并且，由于最终查询特征与bev空间中的子区域具有对应关系，因此根据每个最终查询特征，直接就能得到相应子区域中的目标分割结果，然后通过拼合各子区域中的目标分割结果，很容易就可以得到更大范围内的目标分割结果。
12.进一步的，上述实现方式不是直接将子区域内的坐标作为初始查询特征，而是利用查询特征编码网络将子区域内的坐标编码为初始查询特征，此举扩充了坐标的维度(例如，从二维或三维扩充为256维)，使得到的初始查询特征具有更大的可优化空间，从而有利于在解码网络中对初始查询特征进行更好的优化(优化的结果为最终查询特征)，进而提高目标分割的精度。作为对比的，若直接将子区域内的坐标作为初始查询特征，由于坐标的维度很低，因此任意一个维度上数值的改变都会对最终的优化结果产生较大的影响，难以进行精细化的数值优化。
13.在第一方面的一种实现方式中，每组坐标还包括通过学习得到的z坐标。
14.图像特征中虽然未显式地包含深度信息，但基于图像特征是可以进行深度估计的，所以可以认为图像特征中隐含了深度信息，即图像特征是三维空间中的特征。由于bev空间实际上是一个平面区域，因此若仅根据bev空间中的x坐标和y坐标编码得到初始查询特征，则初始查询特征可能只是一个二维平面上的特征。因为，为了使得初始查询特征能够与图像特征进行更好的交互，在上述实现方式中，通过增加代表高度信息的z坐标使得初始查询特征也变成三维空间中的特征。
15.进一步的，由于bev空间中实际上是没有高度信息的，因此上述实现方式还将z坐标设置为可学习参数，在网络的训练过程中去学习得到合理的z坐标取值。
16.在第一方面的一种实现方式中，所述查询特征编码网络包括位置编码器和特征编码器，所述利用查询特征编网络对所述多组坐标进行编码，得到对应的所述多个初始查询特征，包括：利用所述位置编码器对所述多组坐标进行编码，得到对应的多个位置编码特征；其中，一个位置编码特征的维度大于一组坐标的维度；利用所述特征编码器对所述多个位置编码特征进行编码，得到对应的所述多个初始查询特征；其中，所述特征编码器为多层感知机。
17.在上述实现方式中，位置编码器主要用于编码坐标，以扩充坐标的维度，但位置编码器得到的各个位置编码特征本质上仍然是单点(坐标对应的点)的特征，不能代表子区域的特征，而特征编码器由于采用了多层感知机结构(即全连接的神经网络)，因此可以将单点的特征扩展到更大的空间范围内，使得到的初始查询特征能够更好地代表对应的子区域。
18.在第一方面的一种实现方式中，所述基于所述多个最终查询特征，利用分割网络
得到对应的多个子区域内的目标分割结果，包括：将所述多个最终查询特征输入所述分割网络，得到对应的多组离散余弦变换(discrete cosine transform，简称dct)系数；对所述多组dct系数进行逆向离散变换(inverse discrete cosine transform，简称idct)，得到对应的多个子区域内的目标分割结果。
19.在上述实现方式中，分割网络不是直接输出空间域中的目标分割结果，而是输出频域中的dct系数，再利用idct得到空间域中的目标分割结果。其中，dct常用于图像压缩，压缩后只需保存少量的dct系数就可以在很大程度上还原原始图像，从而，对于本技术的方案而言，分割网络只需计算少量的dct系数就可以得到较大尺寸的目标分割结果，不仅方便了目标分割结果的应用(对尺寸有一定要求)，而且减少了目标分割过程中的计算量和对存储资源的消耗。
20.在第一方面的一种实现方式中，所述解码网络包括依次连接的至少一个解码器，每个解码器用于对输入该解码器的多个查询特征进行解码，并输出多个解码后的查询特征，输入第一个解码器的多个查询特征为所述多个初始查询特征，最后一个解码器输出的多个解码后的查询特征为所述多个最终查询特征；其中，每个解码器均包括自注意力层和交叉注意力层，每个解码器在进行解码时，所述自注意力层用于对输入该解码器的多个查询特征进行交互计算，所述交叉注意力层用于将所述自注意力层输出的多个查询特征与所述图像特征进行交互计算。
21.在上述实现方式，若解码网络包括多个解码器，则解码过程可视为对初始查询特征进行迭代优化的过程，每经过一个解码器，查询特征内部会进行注意力运算(自注意力层)，并且与图像特征之间也会进行注意力运算(交叉注意力层)，即会根据注意力机制进行一轮优化，最后一个解码器输出的最终查询特征就是多轮优化后的结果，其能够较好地代表bev空间的对应子区域内的特征，因此后续基于最终查询特征进行目标分割也能够获得高精度的分割结果。
22.在第一方面的一种实现方式中，所述待处理图像为多帧图像，其中的每帧图像对应一个视角，并由安装在移动载体上的一个摄像头采集，且所述多帧图像的总体拍摄范围覆盖所述移动载体的四周。
23.以移动载体是车辆的情况为例，在上述实现方式中，由于多视角图像覆盖车辆的四周(360
°
范围)，所以可以在bev空间中对以车辆为中心的区域进行全面的目标分割，从而感知车辆周围的各类目标，进而有利于执行车辆的驾驶规划等任务。
24.第二方面，本技术实施例提供一种图像处理装置，包括：图像特征获取模块，用于获取待处理图像，并利用主干网络提取所述待处理图像的图像特征；查询特征获取模块，用于获取多个初始查询特征；其中，每个初始查询特征对应bev空间中的一个子区域，所述bev空间为所述待处理图像的拍摄范围在鸟瞰视角下对应的平面区域；解码模块，用于将所述多个初始查询特征输入解码网络，与同样输入所述解码网络的所述图像特征进行交互计算，得到对应的多个最终查询特征；目标分割模块，用于基于所述多个最终查询特征，利用分割网络得到对应的多个子区域内的目标分割结果；结果汇总模块，用于根据所述多个子区域内的目标分割结果，得到所述bev空间中的总体目标分割结果。
25.第三方面，本技术实施例提供一种计算机程序产品，包括计算机程序指令，所述计算机程序指令被处理器读取并运行时，执行第一方面或第一方面的任意一种可能的实现方
式提供的方法。
26.第四方面，本技术实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器读取并运行时，执行第一方面或第一方面的任意一种可能的实现方式提供的方法。
27.第五方面，本技术实施例提供一种电子设备，包括：存储器以及处理器，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器读取并运行时，执行第一方面或第一方面的任意一种可能的实现方式提供的方法。
附图说明
28.为了更清楚地说明本技术实施例的技术方案，下面将对本技术实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本技术的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
29.图1示出了本技术实施例提供的图像处理方法的步骤；
30.图2示出了多摄像头的设置方式以及bev空间的位置；
31.图3示出了一种适用于图1中方法的模型结构；
32.图4示出了图3中解码网络可采用的一种结构；
33.图5示出了本技术实施例提供的图像处理装置包含的功能模块；
34.图6示出了本技术实施例提供的电子设备可采用的一种结构。
具体实施方式
35.近年来，基于人工智能的计算机视觉、深度学习、机器学习、图像处理、图像识别等技术研究取得了重要进展。人工智能(artificial intelligence，简称ai)是研究、开发用于模拟、延伸人的智能的理论、方法、技术及应用系统的新兴科学技术。人工智能学科是一门综合性学科，涉及芯片、大数据、云计算、物联网、分布式存储、深度学习、机器学习、神经网络等诸多技术种类。计算机视觉作为人工智能的一个重要分支，具体是让机器识别世界，计算机视觉技术通常包括人脸识别、活体检测、指纹识别与防伪验证、生物特征识别、人脸检测、行人检测、目标检测、行人识别、图像处理、图像识别、图像语义理解、图像检索、文字识别、视频处理、视频内容识别、行为识别、三维重建、虚拟现实、增强现实、同步定位与地图构建、计算摄影、机器人导航与定位等技术。随着人工智能技术的研究和进步，该项技术在众多领域展开了应用，例如安防、城市管理、交通管理、楼宇管理、园区管理、人脸通行、人脸考勤、物流管理、仓储管理、机器人、智能营销、计算摄影、手机影像、云服务、智能家居、穿戴设备、无人驾驶、自动驾驶、智能医疗、人脸支付、人脸解锁、指纹解锁、人证核验、智慧屏、智能电视、摄像机、移动互联网、网络直播、美颜、美妆、医疗美容、智能测温等领域。本技术实施例中的图像处理方法也利用了人工智能的相关技术。
36.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行描述。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。
37.术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包
括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
38.图1示出了本技术实施例提供的图像处理方法的步骤。该方法可以但不限于由图6中的电子设备执行，关于该电子设备可能的结构可以参考后文关于图6的阐述。图3示出了一种适用于图1中方法的模型结构，在介绍图1中的方法时，将适当结合图3的内容进行阐述。参照图1，图像处理方法包括：
39.步骤s110：获取待处理图像，并利用主干网络提取待处理图像的图像特征。
40.待处理图像为摄像头采集的图像，待处理图像中可能包含需要分割的目标，例如车道线、可行驶区域、车辆、行人等一种或多种地图元素，后文主要以对车道线、可行驶区域、车辆这三种目标进行分割的情况为例。
41.需要注意，其一，待处理图像中也可能不包含要分割的目标，但为了便于阐述，后文主要阐述待处理图像中包含目标的情况。
42.其二，本技术的方案并不是要对待处理图像本身进行目标分割，而是要对bev空间进行目标分割。其中，bev空间是指待处理图像的拍摄范围在鸟瞰视角下对应的平面区域，而待处理图像的拍摄范围也可以理解为采集待处理图像的摄像头的视场，关于bev空间的概念，稍后还会举例说明。
43.采集待处理图像的摄像头可以是一个或多个摄像头，若只有一个摄像头，则只有一个拍摄视角，此时的待处理图像为单一视角图像(一帧图像)，若有多个摄像头，则存在多个拍摄视角(每个摄像头一个视角)，此时的待处理图像为多视角图像(每个视角一帧图像，共多帧图像)。
44.下面结合图2介绍一个多摄像头的例子，图2左侧用黑圆形示出了6个摄像头(当然，实际中也可以根据需求更改为其他数量)，编号1～6，这6个摄像头安装在一个移动载体上，用于拍摄该移动载体四周的影像，其中摄像头1～3安装在移动载体的前端，摄像头4～6安装在移动载体的后端，各个摄像头的拍摄视角不同，每个黑圆形上延伸出的两条虚线代表对应摄像头的视场范围，或者说该摄像头所采集的待处理图像的拍摄范围。可以将这6个摄像头在同一时刻采集的6帧图像作为步骤s110中的待处理图像，若6个摄像头不停地工作，则可以不断地产生待处理图像，从而也就可以不断地执行本技术实施例提供的图像处理方法。
45.上述所谓的移动载体，其中的“载体”是相对于摄像头说的，指用于承载摄像头的物体，“移动”是指该载体是可以运动的。例如，移动载体可以是车辆、机器人、佩戴头盔的行人(摄像头安装在头盔上)等等。显然，摄像头也可以安装在静止载体上(例如，墙壁、交通信号灯、电线杆等)，但在后文中主要以移动载体的情况举例。
46.继续参照图2，6个摄像头的视场无缝地覆盖了移动载体的四周，此时可以将bev空间定义为鸟瞰视角下的、一个以移动载体为中心的正方形区域，例如，以移动载体为中心的、边长为51.2m的正方形区域，如图2右侧所示。
47.需要注意，其一，严格来说，6个摄像头的视场并未覆盖到移动载体本身(及其周边的少量死角)，但在移动载体本身相对于bev空间不太大时，可以近似地将其视为一点，因此
bev空间的中心位置并不存在空洞。
48.其二，摄像头的视场范围并非是无限延伸的，6个摄像头的视场叠加后，严格来说在鸟瞰视角下形成的是一个圆形区域而非正方形区域，但为了后续分割计算方便，将bev空间定义为正方形区域也并无不妥，毕竟要对哪个范围内的目标进行分割取决于业务需求。当然，将bev空间定义为其他形状，比如圆形、长方形也是可以的。
49.若摄像头的数量或者排布方式与图2示出的不同，则bev空间的定义方式也可能会发生变化。例如，若图2中只保留摄像头1，则bev空间可以定义为鸟瞰视角下的、一个位于移动载体前方的三角形区域，等等。
50.在图2中之所以要设置多个摄像头、采集多视角的待处理图像，一方面是出于业务需求，以移动载体是车辆的情况为例，由于多视角图像的拍摄范围较大，所以相应的bev空间也可以定义得较大，从而可以在更大的范围内进行目标分割。比如图2中的6个摄像头，其拍摄范围覆盖了车辆四周，所以可以将bev空间定义为鸟瞰视角下的、以车辆为中心的正方形区域，通过在这一区域内进行全面的目标分割，可以感知车辆周围的各类目标，进而有利于执行车辆的自动驾驶规划等任务。作为对比的，单一摄像头由于只能采集单一视角的待处理图像，因此只能感知小范围内的目标，比如，位于车辆正前方的目标，从而无法很好地执行驾驶规划。
51.另一方面，多视角图像相当于拥有更多的样本(虽然步骤s110～s150是模型推理阶段的步骤，但如果推理阶段使用多视角图像，训练阶段必然也要使用多视角图像)，因此有利于改善模型(包括后文提到的主干网络、解码网络、分割网络、查询特征编码网络等)性能，获得更精确的目标分割结果。进一步的，相邻的视角可以存在一定的重叠区域(图2示出的就是有重叠的情况)，体现在图像上就是各个视角下的图像包括部分相同的内容，这些相同内容的存在同样有利于模型的优化。
52.应当指出，虽然待处理图像是摄像头采集的，但步骤s110中并不一定是直接从摄像头处获取待处理图像，例如也有可能是从网络上下载待处理图像，等等。
53.主干网络可以是一个预训练的神经网络，其具体结构不限，例如可以采用resnet、vgg、senet等。得到待处理图像后，可以将其输入主干网络，经主干网络处理后，输出待处理图像的图像特征，如图3左侧分支所示。若待处理图像为多帧，在输入主干网络之前，可以先将多帧图像拼接在一起。可选的，在将待处理图像输入主干网络之前，还可以对待处理图像进行缩放、归一化等处理。
54.步骤s120：获取多个初始查询特征。
55.在查询数据库时，通常会指定一个查询条件，然后将该查询条件提交给数据库管理系统，数据库管理系统将数据库中数据与该查询条件进行匹配，得到相应的查询结果并返回。
56.类比于数据库的例子，可以更好地理解本技术方案中的查询特征的含义。初始查询特征对应于上述例子中的查询条件，最终查询特征(见步骤s130)对应于上述例子中的查询结果，而解码网络(见步骤s130)所进行的运算对应于上述例子中数据库管理系统进行的匹配操作。只是数据库中的“查询”可以理解为查，而本技术方案中“查询”的含义则比较抽象，可以理解为提供必要的信息(初始查询特征)以获得所需要的结果(可用于目标分割的最终查询特征)的过程。
57.步骤s120中的每个初始查询特征对应bev空间中的一个子区域，或者说每个初始查询特征都是bev空间中的一个子区域内的特征。其中，bev空间中的子区域可以是将bev空间按照某种规则划分后得到的小区域，例如，参照图2，可以将bev空间均匀地划分为16个正方形的子区域，则此时步骤s120中获取到的初始查询特征共有16个，与子区域一一对应。应当理解，根据不同的划分规则，子区域的数量可能不是16个，形状也可能不是正方形，并且各子区域的大小也不一定相同。
58.在一种实现方式中，可以对子区域的位置信息(指子区域在bev空间中的位置信息)利用查询特征编码网络进行某种编码，得到与子区域对应的初始查询特征。例如，此处的位置信息可以实现为子区域中某个点(例如，中心点)的坐标，如图3右侧分支所示，由于该点的坐标位于子区域内，因此编码产生的初始查询特征自然也就定义在了子区域内，或者说与子区域是对应的。对于此种实现方式，可将“查询”理解为提供子区域的位置信息以获得子区域内的可用于目标分割的特征的过程。关于如何编码子区域的位置信息，后文还会详细阐述，此处暂不展开。
59.在另一种实现方式中，初始查询特征也可以是事先计算并存储起来的，从而在执行步骤s120时直接读取初始查询特征即可。例如，由于子区域的划分方式是事先可以确定的，所以子区域的位置信息是事先可以确定的，又由于对子区域的位置信息如何编码也是可以事先确定的(比如，在模型训练时已经固定了查询特征编码网络的参数)，从而每个子区域对应的初始查询特征是可以事先计算的，不一定要在执行步骤s120时才临时计算初始查询特征。特别地，若对于不同的待处理图像采用相同的初始查询特征，则此种实现方式由于不用每次都计算初始查询特征，因此可以显著提高目标分割的效率。
60.步骤s130：将多个初始查询特征输入解码网络，与同样输入解码网络的图像特征进行交互计算，得到对应的多个最终查询特征。
61.解码网络可以是一个预训练的神经网络，其输入为多个初始查询以及图像特征，输出为多个最终查询特征，如图3中部所示。其中，最终查询特征与初始查询特征是一一对应的，从而每个最终查询特征也对应bev空间中的一个子区域。可选的，在将初始查询特征输入解码网络之前，还可以对其进行某些预处理，对于图像特征也是类似。解码网络的具体结构不限，后文会举例说明其可能采用的结构，此处暂不展开。
62.所谓“解码”，可以理解为将编码后的特征(初始查询特征)解析为所需要的结果(最终查询特征)的过程，实际上也就是步骤s120中提到的“查询”过程，或者也可以认为是对查询特征的进行优化(从初始查询特征优化为最终查询特征)的过程。
63.在解码时，解码网络会对初始查询特征和图像特征进行交互计算，所谓“交互计算”，就是让这两种特征的数据进行某种意义上的融合。例如，若初始查询特征是通过对子区域的位置信息进行编码得到的，则其中并不包含图像特征，显然这样的特征是不能直接进行目标分割的，因为其中根本没有目标的信息，而进行交互计算后，所得到的最终查询特征中既包含了对应子区域的位置信息，同时又包含了对应子区域内的图像特征，从而能够有效表征bev空间在该子区域内的特征，进而基于最终查询特征可以在bev空间的子区域内进行有效的目标分割。
64.步骤s140：基于多个最终查询特征，利用分割网络得到对应的多个子区域内的目标分割结果。
65.分割网络可以是一个预训练的神经网络，其具体结构不限。步骤s140存在多种不同的实现方式：
66.在一种实现方式中，分割网络的输入为多个最终查询特征，输出为相应的多个子区域内的目标分割结果(每个最终查询特征输入分割网络后对应输出一个子区域内的目标分割结果)，例如，若有16个最终查询特征，则输出对应的16个子区域内的目标分割结果。
67.其中，目标分割结果可以是二值化掩膜的形式，例如，用一个64
×
64(宽
×
高)的掩膜代表一个bev空间中的子区域，若掩膜中的某个像素的值为1，表示该像素处存在目标，若掩膜中的某个像素的值为0，表示该像素处不存在目标。若要分割的目标有多种，则分割网络可以针对每种目标都输出一个掩膜，例如，针对车道线输出一个掩膜，针对可行驶区域输出一个掩膜，针对车辆(不含摄像头所在车辆)也输出一个掩膜。参照图3下部，每个小方格代表一个子区域内的目标分割结果，注意图3中为了便于观察将三种目标对应的掩膜叠加在了一张图上，并未单独示出每种目标对应的掩膜。
68.可以理解的，分割网络不一定会直接输出二值化掩膜，例如也可能要对分割网络的输出结果进行二值化操作才能够得到二值化掩膜，当然，将二值化操作也视为分割网络中的一层也是可以的。
69.在另一种实现方式中，分割网络的输入为多个最终查询特征，但输出并非子区域内的目标分割结果，而是某种中间结果，基于这些中间结果可以进一步得到对应的多个子区域内的目标分割结果。
70.例如，参照图3，分割网络输出的是多组dct系数(每个最终查询特征输入分割网络后对应输出一组dct系数)，然后再对这多组dct系数进行idct，才能得到多个最终查询特征对应的多个子区域内的目标分割结果。关于这个例子，后文还会详细阐述，此处暂不展开。
71.步骤s150：根据多个子区域内的目标分割结果，得到bev空间中的总体目标分割结果。
72.由于各个子区域在bev空间中的位置是已知的，因此步骤s140中得到各个子区域内的目标分割结果后，根据各个子区域在bev空间中的位置，将这些目标分割结果拼合起来，就可以得到bev空间中的总体目标分割结果。例如，参照图3，拼合16个子区域内的目标分割结果，可以得到尺寸较大的总体目标分割结果。
73.在某些实现方式中，若总体目标分割结果尺寸较小，无法满足业务需求，还可以对其进行上采样，获得更大尺寸的目标分割结果。
74.下面简单总结图1中的方法，该方法的有益效果包括：
75.其一，由于初始查询特征是与bev空间中的子区域对应的，因此与图像特征进行交互计算后，直接就可以得到与bev空间中的子区域相对应的最终查询特征，这一过程并不需要将图像特征转换到bev空间下，从而避免了转换带来的误差，显著提高了在bev空间下进行目标分割的精度。
76.其二，由于最终查询特征与bev空间中的子区域具有对应关系，因此根据每个最终查询特征，直接就能得到相应子区域中的目标分割结果，然后通过拼合各子区域中的目标分割结果，很容易就可以得到bev空间中的总体目标分割结果。由于各子区域之间的相对位置关系是清楚的，因此各子区域中的目标分割结果应该如何拼合也是十分清楚的，从而有利于获得精度更高的目标分割结果。
77.下面在以上实施例的基础上，继续介绍步骤s120中如何根据bev空间中的子区域的位置信息，编码得到对应的初始查询特征：
78.在一种实现方式中，步骤s120可以进一步包括：
79.步骤a：获取多个初始查询特征对应的多组坐标。
80.其中，每个初始查询特征对应一组坐标，每组坐标至少包括x坐标和y坐标，即对应一个二维点(x,y)，且每个初始查询特征对应的二维点(x,y)位于bev空间中与该初始查询特征对应的子区域内，例如，(x,y)可以、但不限于选择子区域的中心点。显然，(x,y)在一定程度上代表了其所在子区域的位置信息。
81.参照图3左侧分支的左上角，16个初始查询特征共对应16个二维点，这16个二维点用黑圆圈表示，可以先将bev空间均匀划分为16个正方形的子区域，然后取每个子区域的中心点，得到这16个二维点的坐标，或者，也可以直接对bev空间中的二维点进行均匀采样，得到这16个二维点的坐标，等等。
82.可选的，每组坐标中还可以包含z坐标，z坐标设置为可学习的参数，其取值可以在模型的训练过程中确定下来，在包含z坐标时，每组坐标可视为一个三维点(x,y,z)，其中z表示高度。参照图3左侧分支的右上角，16个白圆圈表示16个z坐标，与16个二维点(x,y)拼接后(图中加号)，可以得到16个三维点(x,y,z)。在模型开始训练时，z坐标可以随机取值或者取默认值，模型训练好以后，z坐标也学习到了一组合理的取值。
83.增加z坐标的原因分析如下：
84.图像特征中虽然未显式地包含深度信息，但基于图像特征是可以进行深度估计的，所以可以认为图像特征中隐含了深度信息，即图像特征是三维空间中的特征。由于bev空间实际上是一个平面区域，因此若仅根据bev空间中的x坐标和y坐标编码得到初始查询特征(步骤b)，则初始查询特征可能只是一个二维平面上的特征。因为，为了使得初始查询特征能够与图像特征更好地进行交互计算，可以通过增加代表高度信息的z坐标使得初始查询特征也变成三维空间中的特征。
85.进一步的，由于bev空间中实际上是没有高度信息的，因此并不适合将z坐标设置为先验的值，而更适合在模型的训练过程中去学习得到合理的z坐标取值。
86.需要指出，不设置z坐标也是可以的，例如，z坐标所蕴含的高度信息也可以由步骤b中的查询特征编码网络去学习，但如果完全交由网络去隐式地学习z坐标，其学习结果的不确定性将会增大，很难明确地获知网络是否学习到了z坐标，而显式地将z坐标指定为可学习的参数，会使得网络的学习结果更加明确，有利于改善最终的目标分割结果。
87.进一步的，由于x坐标和y坐标在bev空间及子区域的划分方式确定以后就可以计算出来，而z坐标(如果有的话)在模型训练好以后也可以确定，所以在一种实现方式中，也可以于步骤a执行之前就计算好与多个初始查询特征对应的多组坐标，在步骤a中直接读取计算好的多组坐标，而非临时计算这些坐标。
88.之前在阐述步骤s120时也曾提到一种事先计算初始查询特征的实现方式，相较于之前介绍的实现方式，事先计算坐标虽然无法省略步骤b，但由于坐标的维度很低(一般也就2～3维)，因此保存事先计算好的坐标比保存事先计算好的初始查询特征所需要存储空间更小，有利于节约存储资源。
89.步骤b：利用查询特征编网络对多组坐标进行编码，得到对应的多个初始查询特
征。
90.查询特征编码网络可以是一个预训练的神经网络，其输入为步骤a中得到的多组坐标，输出为与多组坐标对应的多个初始查询特征(每组坐标输入查询特征编码网络后对应输出一个初始查询特征)，例如，若输入16组坐标，则输出对应的16个初始查询特征。
91.编码后得到的一个初始查询特征的维度大于一组坐标的维度(各个初始查询特征的维度相同，各组坐标的维度也相同)，即查询特征编码网络可以通过编码扩充坐标的维度。例如，初始查询特征可以是256维的，而一组坐标则是2～3维的(取决于是否有z坐标)。
92.应当理解，若初始查询特征是事先计算好的，在步骤s120中只是读取计算好的初始查询特征，则可以不必设置查询特征编码网络(但在模型训练阶段还是要设置该网络的)。
93.下面简单分析步骤a～b对应的实现方式，在该实现方式中，由于初始查询特征是对位于bev空间中的子区域内的坐标(至少x坐标和y坐标是位于bev空间内的)进行编码得到的，相当于将初始查询特征定义在了bev空间中的子区域内，因此其与图像特征进行交互计算后，直接就可以得到与bev空间中的子区域相对应的最终查询特征，而不需要将图像特征转换到bev空间下，从而避免了转换带来的误差，显著提高了在bev空间下进行目标分割的精度。并且，由于最终查询特征与bev空间中的子区域具有对应关系，因此根据每个最终查询特征，直接就能得到相应子区域中的目标分割结果，然后通过拼合各子区域中的目标分割结果，很容易就可以得到更大范围内的目标分割结果。
94.进一步的，该实现方式不是直接将子区域内的坐标作为初始查询特征，而是利用查询特征编码网络将子区域内的坐标编码为初始查询特征，编码过程中扩充了坐标的维度，使得到的初始查询特征具有更大的可优化空间(例如，从2～3个可优化的维度扩充为256个可优化的维度)，从而有利于在解码网络中对初始查询特征进行更好的优化(如前所述，解码过程也可以视为对查询特征进行优化的过程)，进而提高目标分割的精度。作为对比的，若直接将子区域内的坐标作为初始查询特征，由于坐标的维度很低，因此任意一个维度上数值的改变都会对最终的优化结果产生较大的影响，难以进行精细化的数值优化。
95.继续参照图3，在一种可选的方案中，查询特征编码网络可以进一步包括位置编码器和特征编码器，此时步骤b可以进一步包括：
96.步骤b1：利用位置编码器对多组坐标进行编码，得到对应的多个位置编码特征。
97.其中，一个位置编码特征的维度大于一组坐标的维度(各个位置编码特征的维度相同，各组坐标的维度也相同)，即步骤b1主要用于扩充坐标的维度以增大特征的可优化空间，例如可以将坐标从2～3维扩充为128维。
98.位置编码器可以实现为一个或多个三角函数(例如，正弦函数或余弦函数)的组合，其效果类似于函数的三角级数展开(将2～3维的坐标展开到128个维度上)。
99.不过需要注意，位置编码器采用的编码算法可以是固定的算法，即并不具有可学习的参数，因此从坐标到位置编码特征的变换可以认为只是一种坐标表达形式的转换，所得到的位置编码特征仍然是单点(坐标表示的二维或三维点)的特征。参照图3左侧分支中部，每个黑点表示一个位置编码特征，位置编码特征可以视为子区域(小方格)的中心点处的特征。
100.步骤b2：利用特征编码器对多个位置编码特征进行编码，得到对应的多个初始查
询特征。
101.其中，特征编码器可采用多层感知机(multi-layer perceptron，简称mlp)结构，该结构属于一种全连接的神经网络，其输入为步骤b1中得到的多个位置编码特征，输出为与多个位置编码特征对应的多个初始查询特征(每个位置编码特征输入特征编码器后对应输出一个初始查询特征)，例如，若输入16个位置编码特征，则输出对应的16个初始查询特征。
102.特征编码器一方面可用于进一步扩充特征的维度，例如，从128为扩充为256维。更重要的是，借助于多层感知机的计算，特征编码器可实现从单点特征到区域特征的映射：如步骤b1所述，位置编码特征只是一种单点特征，无法代表整个子区域的特征，因此直接用位置编码特征和图像特征进行交互计算是不合适的，这样得到的最终查询特征的注意力将集中在子区域中的一点，无法实现很好的目标分割。而多层感知机可使得位置编码特征的各个维度之间进行相互计算，相当于模糊了位置编码特征对应的坐标，使其从单点特征扩展到更大的空间范围内，进而使得到的初始查询特征能够更好地代表对应的子区域。
103.在一种替代方案中，查询特征编码网络也可以直接采用一个多层感知机，该多层感知机直接将坐标编码为初始查询特征。但此种实现方式的问题在于，坐标和初始查询特征之间的维度差距较大，例如，特征可能是2～3维的，而初始查询特征则是256维的，这可能导致多层感知机拟合输入输出之间的关系时会比较困难。而在步骤b1～b2中，扩充坐标维度的任务主要由位置编码器完成，由于位置编码器可以不采用神经网络，因此并不存在拟合困难的问题，而位置编码器输出的位置编码特征和初始查询特征的维度已经比较接近了，例如，位置编码特征是128维的，初始查询特征是256维的，此时多层感知机(特征编码器)拟合起来并无难度。
104.下面在以上实施例的基础上，继续介绍步骤s130中的解码网络可能采用的结构：
105.参照图4，解码网络可以进一步包括依次连接的至少一个解码器，每个解码器用于对输入该解码器的多个查询特征进行解码，并输出对应的多个解码后的查询特征。其中，输入第一个解码器的多个查询特征为多个初始查询特征，而最后一个解码器输出的多个解码后的查询特征为多个最终查询特征。
106.不妨考虑解码网络包括多个解码器的情况(一个解码器只是多个解码器的一种简化版本)，解码过程可视为对初始查询特征进行迭代优化的过程，每经过一个解码器就是一轮迭代优化，而最后一个解码器输出的最终查询特征就是多轮优化后的结果，其能够较好地代表bev空间的对应子区域内的特征，因此后续基于最终查询特征进行目标分割也能够获得高精度的分割结果。其中，解码器在优化查询特征的过程中，会将查询特征与图像特征进行交互计算。
107.进一步的，解码网络中还可以实现注意力机制，以提高查询特征的表达能力，改善目标分割结果。例如，参照图4，每个解码器中均包含自注意力(self attention)层和交叉注意力(cross attention)层，当然也不排除解码器中还包含其他层。
108.其中，每个解码器在进行解码时，自注意力层用于对输入该解码器的多个查询特征进行交互计算，而交叉注意力层用于将自注意力层输出的多个查询特征与图像特征进行交互计算(当然，若自注意力层和交叉注意力层不是直接连接的，即中间还设置有其他层，则交叉注意力层用于将输入该层的多个查询特征与图像特征进行交互计算)。
109.上述的“交互计算”对于具有注意力的网络层来说就是指查询(query)、键(key)以及值(value)之间的相互计算，或称注意力运算，其大致计算过程为：根据query和key计算代表注意力的权重系数，根据权重系数对value进行加权求和，关于query、key、value代表的含义以及注意力运算的具体过程可参考现有技术，此处不作详细阐述。
110.对于解码器中的自注意力层而言，query就是(或者来源于)输入该解码器的查询特征，而key和value都是根据query计算的，从而自注意力层的功能也可以概括为利用注意力机制，在查询特征内部进行优化。对于解码器中的交叉注意力层而言，query就是(或者来源于)自注意力层输出的查询特征，而图像特征则分别作为key和value(或者key和value来源于图像特征)，从而交叉注意力层的功能也可以概括为利用注意力机制，通过图像特征对查询特征进行优化。
111.下面在以上实施例的基础上，继续介绍步骤s140中基于dct系数得到目标分割结果的实现方式，在此种实现方式中，步骤s140可以进一步包括：
112.步骤a：将多个最终查询特征输入分割网络，得到对应的多组dct系数。
113.步骤b：对多组dct系数进行idct，得到对应的多个子区域内的目标分割结果。
114.为理解步骤a～b中的方案，先简单介绍dct，dct常用于图像压缩领域，其典型做法为(仅为基本原理，不排除和实际压缩标准略有差异)：
115.将待压缩的图像分块，比如分为8
×
8的块，对每个块分别执行dct，变换结果也是8
×
8的块，块中的每个像素值都是一个dct系数。其中，dct是一种可以将图像信号从空间域转换到频域的变换，并且其具有能量集中效果，直观的体现就是在8
×
8的dct系数块中，左上角部分数值较大(主要代表图像中的低频信息)，其余部分则数值较小(主要代表图像中的高频信息或噪声)，甚至接近于0。
116.对8
×
8的dct系数块进行idct，则可以无损地恢复8
×
8的图像块，然而对于图像的有损压缩而言，并不要求恢复原始图像。因此可以将8
×
8的dct系数块中那些较小的数值置零，即只保留左上角的少量dct系数，例如只保留左上角的10个dct系数，这样原先64个数值的图像块就被压缩为10个数值了，后续图像块的传输、存储都只使用这10个数值。
117.在图像块解压缩时，只需将这10个dct系数排列到8
×
8块的左上角，将其余位置的dct系数补上0，再执行idct即可。当然，由于压缩时将较小的dct系数置零了，所以并不能无损地恢复原始的图像块，即会损失少量的图像细节，但图像块的主体内容还是得到保留的，因为图像块的主体内容主要是由左上角的这10个dct系数代表的。
118.回到本技术的方案，子区域内的目标分割结果可视为一种图像块，例如64
×
64的块，可用数量较少的dct系数(例如，64个、128个)实现该图像块的压缩，只需对这些dct系数进行idct，即可近似地还原出目标分割结果。步骤a～b可视为此压缩过程的逆向应用，在步骤a中先利用分割网络预测出子区域内的目标分割结果对应的dct系数，在步骤b中再利用dct系数还原出子区域内的目标分割结果，虽然这种还原存在少量的精度损失，但在很多应用场景中已经足够。
119.下面简单分析步骤a～b中方案的优势：
120.若直接利用最终查询特征计算子区域内的目标分割结果，在目标分割结果的尺寸较大时，比如尺寸为64
×
64或者128
×
128时，分割网络的运算量过大，为避免此问题，只能先计算出尺寸较小的目标分割结果，例如16
×
16或者32
×
32的目标分割结果，然后再根据
需求进行上采样。但小尺寸的目标分割结果分割精度较低(一些小目标会被忽略掉)，而上采样操作也无法改善分割精度。
121.若先计算dct系数，再利用idct计算子区域内的目标分割结果，则由于dct系数的数量不多(例如，128明显小于64
×
64或者128
×
128)，因此分割网络的运算量不大，即只需利用较少的计算存储资源既可以得到尺寸较大的目标分割结果，并且也无需对目标分割结果再进行上采样。
122.进一步的，步骤a中计算出的dct系数可以是向量的形式，但在执行idct之前，需要将这些dct系数整形为dct系数块的形式，一种整形方法为：先在dct系数后面补0(例如，若子区域的目标分割结果的尺寸为64
×
64，则需要在128个dct系数后面补上64
×
64－128个0)，然后将补0后的dct系数按照zigzag方式排列为系数块，关于zigzag方式，可参考现有技术，不再详细说明。
123.图5示出了本技术实施例提供的图像处理装置200包含的功能模块。参照图5，图像处理装置200包括：
124.图像特征获取模块210，用于获取待处理图像，并利用主干网络提取所述待处理图像的图像特征；
125.查询特征获取模块220，用于获取多个初始查询特征；其中，每个初始查询特征对应bev空间中的一个子区域，所述bev空间为所述待处理图像的拍摄范围在鸟瞰视角下对应的平面区域；
126.解码模块230，用于将所述多个初始查询特征输入解码网络，与同样输入所述解码网络的所述图像特征进行交互计算，得到对应的多个最终查询特征；
127.目标分割模块240，用于基于所述多个最终查询特征，利用分割网络得到对应的多个子区域内的目标分割结果；
128.结果汇总模块250，用于根据所述多个子区域内的目标分割结果，得到所述bev空间中的总体目标分割结果。
129.在图像处理装置200的一种实现方式中，所述查询特征获取模块220获取多个初始查询特征，包括：获取所述多个初始查询特征对应的多组坐标；其中，每组坐标至少包括x坐标和y坐标，且每个初始查询特征对应的x坐标和y坐标位于所述bev空间中与该初始查询特征对应的子区域内；利用查询特征编网络对所述多组坐标进行编码，得到对应的所述多个初始查询特征；其中，一个初始查询特征的维度大于一组坐标的维度。
130.在图像处理装置200的一种实现方式中，每组坐标还包括通过学习得到的z坐标。
131.在图像处理装置200的一种实现方式中，所述查询特征编码网络包括位置编码器和特征编码器，所述查询特征获取模块220利用查询特征编网络对所述多组坐标进行编码，得到对应的所述多个初始查询特征，包括：利用所述位置编码器对所述多组坐标进行编码，得到对应的多个位置编码特征；其中，一个位置编码特征的维度大于一组坐标的维度；利用所述特征编码器对所述多个位置编码特征进行编码，得到对应的所述多个初始查询特征；其中，所述特征编码器为多层感知机。
132.在图像处理装置200的一种实现方式中，所述目标分割模块240基于所述多个最终查询特征，利用分割网络得到对应的多个子区域内的目标分割结果，包括：将所述多个最终查询特征输入所述分割网络，得到对应的多组dct系数；对所述多组dct系数进行idct，得到
对应的多个子区域内的目标分割结果。
133.在图像处理装置200的一种实现方式中，所述解码网络包括依次连接的至少一个解码器，每个解码器用于对输入该解码器的多个查询特征进行解码，并输出多个解码后的查询特征，输入第一个解码器的多个查询特征为所述多个初始查询特征，最后一个解码器输出的多个解码后的查询特征为所述多个最终查询特征；其中，每个解码器均包括自注意力层和交叉注意力层，每个解码器在进行解码时，所述自注意力层用于对输入该解码器的多个查询特征进行交互计算，所述交叉注意力层用于将所述自注意力层输出的多个查询特征与所述图像特征进行交互计算。
134.在图像处理装置200的一种实现方式中，所述待处理图像为多帧图像，其中的每帧图像对应一个视角，并由安装在移动载体上的一个摄像头采集，且所述多帧图像的总体拍摄范围覆盖所述移动载体的四周。
135.本技术实施例提供的图像处理装置200可用于执行本技术实施例提供的图像处理方法，该装置的实现原理及产生的技术效果在前述方法实施例中已经介绍，为简要描述，装置实施例部分未提及之处，可参考方法实施例中相应内容。
136.图6示出了本技术实施例提供的电子设备300的结构。参照图6，电子设备300包括：处理器310、存储器320以及摄像头330，这些组件通过通信总线340和/或其他形式的连接机构(未示出)互连并相互通讯。
137.其中，处理器310包括一个或多个(图中仅示出一个)，其可以是一种集成电路芯片，具有信号的处理能力。上述的处理器310可以是通用处理器，包括中央处理器(central processing unit，简称cpu)、微控制单元(micro controller unit，简称mcu)、网络处理器(network processor，简称np)或者其他常规处理器；还可以是专用处理器，包括图形处理器(graphics processing unit，gpu)、神经网络处理器(neural-network processing unit，简称npu)、数字信号处理器(digital signal processor,简称dsp)、专用集成电路(application specific integrated circuits，简称asic)、现场可编程门阵列(field programmable gate array，简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。并且，在处理器310为多个时，其中的一部分可以是通用处理器，另一部分可以是专用处理器。
138.存储器320包括一个或多个(图中仅示出一个)，其可以是，但不限于，随机存取存储器(random access memory，简称ram)，只读存储器(read only memory，简称rom)，可编程只读存储器(programmable read-only memory，简称prom)，可擦除可编程只读存储器(erasable programmable read-only memory，简称eprom)，电可擦除可编程只读存储器(electric erasable programmable read-only memory，简称eeprom)等。
139.处理器310以及其他可能的组件可对存储器320进行访问，读和/或写其中的数据。特别地，在存储器320中可以存储一个或多个计算机程序指令，处理器310可以读取并运行这些计算机程序指令，以实现本技术实施例提供的图像处理方法。
140.摄像头330包括一个或多个(图中仅示出一个)，其可以是一种用于采集图像(含视频)的设备，例如，采集步骤s110中的待处理图像，待处理图像保存在存储器320中。
141.可以理解，图6所示的结构仅为示意，电子设备300还可以包括比图6中所示更多或者更少的组件，或者具有与图6所示不同的配置。例如，电子设备300还可能包括通信模块，
用于与其他设备进行通信。又例如，电子设备300还可能不包括摄像头330，待处理图像是通过其他渠道(比如，网络下载)保存到存储器320中的。
142.图6中所示的各组件可以采用硬件、软件或其组合实现。电子设备300可能是实体设备，例如车载设备、可穿戴设备、pc机、服务器等，也可能是虚拟设备，例如虚拟机、容器等。并且，电子设备300也不限于单台设备，也可以是多台设备的组合或者大量设备构成的集。
143.电子设备300的安装场景不限。例如，可将电子设备300安装在移动载体上(安装方式可参考图2)，在移动载体运动的过程中，电子设备300的摄像头330采集待处理图像，处理器310则读取并运行存储器320中的计算机程序指令，以实现本技术实施例提供的图像处理方法。又例如，电子设备300也可以不安装在任何载体上，比如待处理图像是通过直接采集以外的其他渠道保存到存储器320中的，处理器310读取并运行存储器320中的计算机程序指令，同样能实现本技术实施例提供的图像处理方法。
144.本技术实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序指令，这些计算机程序指令被处理器读取并运行时，执行本技术实施例提供的图像处理方法。例如，计算机可读存储介质可以实现为图6中电子设备300中的存储器320。
145.本技术实施例还提供一种计算机程序产品，该计算机程序产品包括计算机程序指令，这些计算机程序指令被处理器读取并运行时，执行本技术实施例提供的图像处理方法。
146.以上所述仅为本技术的实施例而已，并不用于限制本技术的保护范围，对于本领域的技术人员来说，本技术可以有各种更改和变化。凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。

技术特征：

1.一种图像处理方法，其特征在于，包括：获取待处理图像，并利用主干网络提取所述待处理图像的图像特征；获取多个初始查询特征；其中，每个初始查询特征对应鸟瞰视角bev空间中的一个子区域，所述bev空间为所述待处理图像的拍摄范围在鸟瞰视角下对应的平面区域；将所述多个初始查询特征输入解码网络，与同样输入所述解码网络的所述图像特征进行交互计算，得到对应的多个最终查询特征；基于所述多个最终查询特征，利用分割网络得到对应的多个子区域内的目标分割结果；根据所述多个子区域内的目标分割结果，得到所述bev空间中的总体目标分割结果。2.根据权利要求1所述的图像处理方法，其特征在于，所述获取多个初始查询特征，包括：获取所述多个初始查询特征对应的多组坐标；其中，每组坐标至少包括x坐标和y坐标，且每个初始查询特征对应的x坐标和y坐标位于所述bev空间中与该初始查询特征对应的子区域内；利用查询特征编网络对所述多组坐标进行编码，得到对应的所述多个初始查询特征；其中，一个初始查询特征的维度大于一组坐标的维度。3.根据权利要求2所述的图像处理方法，其特征在于，每组坐标还包括通过学习得到的z坐标。4.根据权利要求2或3所述的图像处理方法，其特征在于，所述查询特征编码网络包括位置编码器和特征编码器，所述利用查询特征编网络对所述多组坐标进行编码，得到对应的所述多个初始查询特征，包括：利用所述位置编码器对所述多组坐标进行编码，得到对应的多个位置编码特征；其中，一个位置编码特征的维度大于一组坐标的维度；利用所述特征编码器对所述多个位置编码特征进行编码，得到对应的所述多个初始查询特征；其中，所述特征编码器为多层感知机。5.根据权利要求1-4中任一项所述的图像处理方法，其特征在于，所述基于所述多个最终查询特征，利用分割网络得到对应的多个子区域内的目标分割结果，包括：将所述多个最终查询特征输入所述分割网络，得到对应的多组离散余弦变换dct系数；对所述多组dct系数进行逆向离线余弦变换idct，得到对应的多个子区域内的目标分割结果。6.根据权利要求1-5中任一项所述的图像处理方法，其特征在于，所述解码网络包括依次连接的至少一个解码器，每个解码器用于对输入该解码器的多个查询特征进行解码，并输出多个解码后的查询特征，输入第一个解码器的多个查询特征为所述多个初始查询特征，最后一个解码器输出的多个解码后的查询特征为所述多个最终查询特征；其中，每个解码器均包括自注意力层和交叉注意力层，每个解码器在进行解码时，所述自注意力层用于对输入该解码器的多个查询特征进行交互计算，所述交叉注意力层用于将所述自注意力层输出的多个查询特征与所述图像特征进行交互计算。7.根据权利要求1-6中任一项所述的图像处理方法，其特征在于，所述待处理图像为多帧图像，其中的每帧图像对应一个视角，并由安装在移动载体上的一个摄像头采集，且所述
多帧图像的总体拍摄范围覆盖所述移动载体的四周。8.一种计算机程序产品，其特征在于，包括计算机程序指令，所述计算机程序指令被处理器读取并运行时，执行如权利要求1-7中任一项所述的方法。9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器读取并运行时，执行如权利要求1-7中任一项所述的方法。10.一种电子设备，其特征在于，包括：存储器以及处理器，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器读取并运行时，执行权利要求1-7中任一项所述的方法。

技术总结

本申请涉及图像处理技术领域，提供一种图像处理方法、计算机程序产品、存储介质及电子设备。其中，图像处理方法包括：获取待处理图像，并利用主干网络提取待处理图像的图像特征；获取多个初始查询特征，每个初始查询特征对应BEV空间中的一个子区域；将多个初始查询特征输入解码网络，与同样输入解码网络的图像特征进行交互计算，得到对应的多个最终查询特征；基于多个最终查询特征，利用分割网络得到对应的多个子区域内的目标分割结果；根据多个子区域内的目标分割结果，得到BEV空间中的总体目标分割结果。该方法显著提高了在BEV空间下进行目标分割的精度。下进行目标分割的精度。下进行目标分割的精度。