用于使得能够进行音频缩放的装置、方法和计算机程序与流程

更新时间:2025-12-27 00:27:11 0条评论

默认

用于使得能够进行音频缩放的装置、方法和计算机程序与流程

1.本公开的示例涉及用于使得能够进行音频缩放的装置、方法和计算机程序。一些涉及用于在维持信号电平的同时使得能够进行音频缩放的装置、方法和计算机程序。

背景技术：

2.音频缩放是一种音频操作，可以相比于其他方向上的声源，放大在一个或多个方向上的声源。这可以使用两个或更多麦克风和波束形成来实现。

技术实现要素：

3.根据本公开的各种但不一定是全部的示例，提供了一种装置，包括用于以下的部件：
4.针对音频信号，确定在至少一个第一方向上的声能是否与在至少一个第二方向上的声能相差至少阈值量；并且
5.基于在至少一个第一方向上的声能是否与在至少一个第二方向上的声能相差至少阈值量，来控制所提供的动态余量的量。
6.该第一方向可以在感兴趣区域内并且该第二方向可以在感兴趣区域之外。
7.所提供的所述动态余量的量可以被控制，以便使得能够进行音频缩放。
8.如果在所述至少一个第一方向上的声能没有与在所述至少一个第二方向上的声能相差至少所述阈值量，则所述动态余量的量可以被控制为足够大到使得在选择音频缩放时能够进行对所述音频信号的放大。
9.如果在所述至少一个第一方向上的声能与在所述至少一个第二方向上的声能相差至少所述阈值量，则所述动态余量的量被控制为不足够大到使得在选择音频缩放时能够进行对所述音频信号的放大。
10.如果在选择音频缩放时所提供的所述动态余量不足够大到使得能够进行对音频信号的放大，则该装置可以被配置为通过衰减不想要的声源来使得能够进行音频缩放。
11.所述部件可以用于检测在在所述至少一个第一方向上的声能是否比在所述至少一个第二方向上的声能高至少所述阈值量的方面的变化，并且基于所检测到的变化调整所提供的所述动态余量。
12.所提供的所述动态余量的量可以通过使用自动增益控制来控制。
13.提供的动态余量的量可以通过使用的压缩来控制。
14.声能可以被测量为波束形成信号的总和。
15.所述部件可以用于针对音频信号确定在至少一个第一方向上的声能是否比在至少一个第二方向上的声能高至少阈值量。
16.根据本公开的各种但不一定全部的示例，提供了一种装置，包括至少一个处理器；以及包括计算机程序代码的至少一个存储器，所述至少一个存储器和所述计算机程序代码被配置为利用所述至少一个处理器使所述装置至少执行：
17.针对音频信号，确定在至少一个第一方向上的声能是否与在至少一个第二方向上的声能相差至少阈值量；并且
18.基于在至少一个第一方向上的声能是否与在至少一个第二方向上的声能相差至少阈值量，来控制所提供的动态余量的量。
19.根据本公开的各种但不一定全部的示例，提供了包括如本文所述的装置的电子设备。
20.根据本公开的各种但不一定全部的示例，提供了一种方法，包括：
21.针对音频信号，确定在至少一个第一方向上的声能是否与在至少一个第二方向上的声能相差至少阈值量；并且
22.基于在至少一个第一方向上的声能是否与在至少一个第二方向上的声能相差至少阈值量，来控制所提供的动态余量的量。
23.根据本公开的各种但不一定全部的示例，提供了一种计算机程序，该所述计算机程序包括计算机程序指令，当由处理电路系统执行时，使得：
24.针对音频信号，确定在至少一个第一方向上的声能是否与在至少一个第二方向上的声能相差至少阈值量；以及
25.基于在至少一个第一方向上的声能是否与在至少一个第二方向上的声能相差至少阈值量，来控制所提供的动态余量的量。
附图说明
26.现在将参考附图描述一些示例，其中：
27.图1示出了电子设备；
28.图2示出了装置；
29.图3示出了方法；
30.图4示出了方法；
31.图5示出了方法；
32.图6示出了示例声源；
33.图7a到7c示出了示例声源和信号；
34.图8a到8c示出了示例声源和信号；以及
35.图9a到9c示出了示例声源和信号。
具体实施方式
36.本公开的示例涉及用于使得能够进行音频缩放的装置、方法和计算机程序。音频缩放可以使感兴趣区域内的声音相比于感兴趣区域外的声音而被放大。音频缩放可以与摄像机缩放一起使用。在此种示例中，感兴趣区域可以是摄像机的视野或摄像机视野中的一部分。为了使得能够进行有效的音频缩放，可以基于将被用于实现音频缩放的处理类型来控制在音频信号中提供的动态余量(headroom)的量。用于实现音频缩放的处理类型可以通过感兴趣区域之外是否有任何响亮的声源来确定。
37.图1示意性地示出了根据本公开示例的电子设备101。电子设备101可用于实施本公开的示例。电子设备101包括处理器103、存储器105、两个或更多个麦克风107、数据总线
109、无线网络模块111、收发器113和摄像机115。图1仅示出以下描述中提及的组件。电子设备101可以包括图1中未示出的附加组件。例如，电子设备101可以包括用户界面、电源和/或任何其他合适的组件。
38.电子设备101可以是用户电子设备101。在一些示例中，电子设备101可以是手持电子设备101。在一些示例中，电子设备101可以是通信设备。电子设备101可以是移动电话、平板电脑或任何其他合适类型的电子设备101。
39.处理器103和存储器105可以提供例如控制器装置的装置。图2更详细地示出了示例处理器103和存储器105。
40.电子设备101包括两个或更多麦克风107。麦克风107可以包括可以被配置为捕获声音并且使得能够提供麦克风音频信号的任何部件。麦克风107可以包括全向麦克风。麦克风音频信号包括代表由麦克风107捕获的声场中的至少一些声场的电信号。
41.在图1所示的示例中，电子设备101包括两个或更多个麦克风107。可以在电子设备101内的不同位置处提供麦克风107以使得能够捕获空间音频信号。在一些示例中，可以在电子设备101内的不同位置处提供麦克风107，从而使得可以基于由麦克风107捕获的音频信号来确定一个或多个声源相对于电子设备101的位置。
42.麦克风107被耦合到处理器103和存储器105，从而使得麦克风音频信号被提供给处理器103进行处理。在图1的示例中，麦克风107经由数据总线109耦合到处理器103和存储器105。用于在麦克风107与处理器103和存储器105之间传输信号的其他部件可以用于本公开的其他示例中。
43.由处理器103执行的处理可以包括使得能够进行音频缩放、定位声源和/或任何其他合适的处理。该处理可以包括如图3至5中的任何一个中所示的方法和/或任何其他合适的处理。
44.摄像机115可以包括可以使得图像能够被捕获的任何部件。图像可以包括视频图像、静止图像或任何其他合适类型的图像。由摄像机115捕获的图像可以伴随来自两个或更多个麦克风107的麦克风音频信号。摄像机115可以由处理器103控制以使得图像能够被捕获。
45.在本公开的一些示例中，电子设备101可用于捕获音频信号以伴随由摄像机115捕获的图像。在此类示例中，如果用户缩放摄像机115或由摄像机捕获的图像，这也可能导致音频缩放。音频缩放可以放大在摄像机115捕获的图像内的声源。可以基于摄像机115的视野、摄像机115使用的缩放量以及一个或多个声源的位置来确定在摄像机115捕获的图像内的声源。可以通过放大想要的声源和/或通过衰减不想要的声源来实现对在摄像机捕获的图像内的声源的有效放大。
46.在图1所示的示例中，电子设备101包括无线网络模块111和收发器113。无线网络模块111和收发器113可以被配置为使得能够从电子设备101发送数据以及向电子设备101发送数据。从电子设备101发送的数据可以包括来自麦克风107的音频信号、处理后的音频信号、来自摄像机115的图像和/或任何其他合适的数据。
47.图2示出了包括处理器103和存储器105的装置201。装置201可以被设置在如图1所示的电子设备101内。装置201可以提供用于控制电子设备101的控制装置201。
48.图2所示的装置201可以是芯片或芯片组。装置201包括处理器103和存储器105。处
理器103和存储器105可以被实现为电路系统、硬件或者可以是硬件和软件(包括固件)的结合。
49.在一些示例中，装置201可以使用使得够进行硬件功能的指令来实现，例如，通过使用在通用或专用处理器103中的计算机程序203的可执行指令来实现，该指令可以被存储在计算机可读存储介质(磁盘、存储器等)上以由此处理器103执行。
50.处理器103被配置为从存储器105读取和向该存储器写入。处理器103还可以包括输出接口以及输入接口，处理器103经由输出接口输出数据和/或命令，数据和/或命令经由输入接口被输入到处理器103。
51.存储器105被配置为存储计算机程序203，该计算机程序包括计算机程序指令(计算机程序代码205)，当加载到处理器103中时该计算机程序指令控制装置201的操作。计算机程序203的计算机程序指令提供使装置201能够执行图3、4和5所示的方法的逻辑和例程。处理器103通过读取存储器105能够加载和执行计算机程序203。
52.装置201因此包括：至少一个处理器103；以及至少一个存储器105，其包括计算机程序代码205，至少一个存储器105和计算机程序代码205被配置为与至少一个处理器103一起使装置201至少执行：
53.对于音频信号，确定在至少一个第一方向上的声能与在至少一个第二方向上的声能是否相差至少阈值量；以及
54.基于在至少一个第一方向上的声能与在至少一个第二方向上的声能是否相差至少阈值量来控制所提供的动态余量的量。
55.如图2所示，计算机程序203可以经由任何合适的传递机制207到达装置201。传递机制207可以是例如机器可读介质、计算机可读介质、非暂时性计算机可读介质存储介质、计算机程序产品、存储设备、记录介质，例如光盘只读存储器(cd-rom)或数字多功能光盘(dvd)或固态存储器，包括计算机程序203或者有形地体现计算机程序203的制品。传递机制可以是被配置为可靠地传输计算机程序203的信号。装置201可以将计算机程序203作为计算机数据信号传播或发送。在一些示例中，计算机程序203可以使用无线协议被发送到装置201，该无线协议例如蓝牙、低功耗蓝牙、智能蓝牙、6lowpan(低功率个域网络上的ipv6)zigbee、ant+、近场通信(nfc)、射频识别、无线局域网(无线lan)或任何其他合适的协议。
56.计算机程序203包括计算机程序指令，其用于使装置201至少执行以下操作：
57.对于音频信号，确定在至少一个第一方向上的声能是否与在至少一个第二方向上的声能相差至少阈值量；并且
58.基于在至少一个第一方向上的声能是否与至少一个第二方向上的声能相差至少阈值量来控制所提供的动态余量的量。
59.计算机程序指令可以包括在计算机程序203、非暂时性计算机可读介质、计算机程序产品、机器可读介质中。在一些但不一定是所有示例中，计算机程序指令可以分布在一个以上的计算机程序203上。
60.尽管存储器105被示为单个组件/电路系统，但它可以实现为一个或多个单独的组件/电路系统，其中一些或全部可以集成/可移除和/或可以提供永久/半永久/动态/高速缓存存储。
61.尽管处理器103被示为单个组件/电路系统，但它可以被实现为一个或多个分开的
组件/电路系统，其中一些或全部可以是集成的/可移除的。处理器103可以是单核或多核处理器。
62.对“计算机可读存储介质”、“计算机程序产品”、“有形体现的计算机程序”等或“控制器”、“计算机”、“处理器”等的引用应理解为不仅涵盖具有不同架构的计算机(例如单/多处理器架构和顺序(von neumann)/并行架构)，但也涵盖专用电路，例如现场可编程门阵列(fpga)、专用电路(asic)、信号处理设备和其他处理电路系统。对计算机程序、指令、代码等的引用应理解为涵盖用于可编程处理器或固件的软件，诸如例如硬件设备的可编程内容，无论是用于处理器的指令，还是用于固定功能设备的配置设置、门阵列或可编程逻辑设备等。
63.如在本技术中使用的，术语“电路系统”可以指以下一项或多项或全部：
64.(a)仅硬件电路系统实现(例如仅以模拟和/或数字电路系统实现)以及
65.(b)硬件电路和软件的组合，例如(如适用)：
66.(i)模拟和/或数字硬件电路与软件/固件的组合，以及
67.(ii)具有软件的硬件处理器(包括数字信号处理器)的任何部分、软件和存储器，它们一起工作以使装置(诸如移动电话或服务器)执行各种功能，以及
68.(c)硬件电路和/或处理器，例如微处理器或微处理器的一部分，其需要软件(例如固件)进行操作，但当不需要操作时，该软件可能不存在。
69.该电路系统的定义适用于本技术中的(包括在任何权利要求中的)该术语的所有使用。作为另一个示例，如在本技术中使用的，术语电路系统还涵盖仅硬件电路或处理器及其(或它们的)随附软件和/或固件的实现。例如，如果适用于特定权利要求元素，术语电路系统还覆盖用于移动设备的基带集成电路或在服务器、蜂窝网络设备或其他计算或网络设备中的类似集成电路。
70.图3、4和5中所示的块可以表示方法中的步骤和/或计算机程序203中的代码段。对块的特定顺序的说明并不一定意味着针对块具有所需的或优选的顺序，并且块的顺序和排列可以改变。此外，可以省略一些块。
71.图3示出了根据本公开的示例的示例方法。可以使用如上所述的装置201和/或电子设备101或使用任何其他合适类型的电子设备或装置来实现该方法。
72.在块301，该方法包括针对音频信号确定在至少一个第一方向上的声能是否与在至少一个第二方向上的声能相差至少阈值量。例如，该方法可以包括确定在至少一个第一方向上的声能是否比在至少一个第二方向上的声能高出至少阈值量。
73.第一方向和第二方向可以被选择为使得该第一方向在感兴趣区域内并且该第二方向在感兴趣区域之外。例如，第一方向可以在摄像机的视野内，而第二方向可以在摄像机的视野之外。因此，在第一方向上的声源可能是用户可能想要收听的想要的声源。例如，第一方向上的声源可以响应于摄像机115捕获的图像。第二方向上的声源可能是用户可能不想听的不想要的声源。例如，这些可以包括不在摄像机115的视野中的声源。
74.第一方向和第二方向可以取决于摄像机115的取向、摄像机115使用的缩放级别和/或任何其他合适的因素而改变。
75.在块303，该方法包括基于在至少一个第一方向上的声能是否与在至少一个第二方向上的声能相差至少阈值量来控制所提供的动态余量的量。例如，可以基于在至少一个
第一方向上的声能是否比在至少一个第二方向上的声能高出至少阈值量来控制所提供的动态余量的量。可以使用任何合适的部件来测量在各个方向上的声能。在一些示例中，声能可以被测量为波束形成信号的总和。
76.所提供的动态余量的量可以被控制，以便使得能够进行音频缩放。所提供的动态余量的量可以被控制，以便使得能够在最大化或基本上最大化信号电平的同时进行音频缩放。
77.如果在第一方向上的声能显着高于在第二方向上的声能，这指示最响亮的声音是想要的声音。例如，最响亮的声音可能来自摄像机115的视野内的声源。
78.如果在第一方向上的声能没有明显高于在第二方向上的声能，这指示最响亮的声音中的至少一些可能是不想要的声音。例如，可能有一些响亮的声源不在摄像机115的视野内。
79.如果最响亮的声音是想要的声音，则可以通过使用放大或其他合适的过程来实现音频缩放。为了允许放大，必须在信号内提供足够的动态余量。因此，如果最响亮的声音是想要的声音，则可以控制动态余量的量，从而使得提供大量的动态余量。大量的动态余量是足够大到如果选择了音频缩放则能够进行对音频信号的放大。在某些示例中，动态余量可能在12db左右。这个动态余量的量可以使得当用户选择音频缩放时音频能够发生明显的变化。这使得用户能够清楚地感知已经使用了音频缩放。
80.如果最响亮的声音是不想要的声音，则可以通过使用不想要的声源的衰减或其他合适的过程来实现音频缩放。衰减不会使用动态余量，因此，如果最响亮的声音是不想要的声音，则可以控制动态余量从而使得提供小量的动态余量。该小量的动态余量可能没有足够大到使得在选择音频缩放时能够实现进行对音频信号的放大，但是这可以最大化或基本上最大化信号电平。例如，小量的动态余量可能远小于12db。使用小量的动态余量可以最大化音频信号的响度。
81.在一些示例中，装置201可以被配置为检测在在至少一个第一方向上的声能是否比在至少一个第二方向上的声能高至少阈值量方面的变化。例如，装置201可以检测一个或多个声源是否已经移动，或者声源中的任何一个的响度是否已经改变，或任何其他合适的因素。
82.如果检测到在在至少一个第一方向上的声能是否比在至少一个第二方向上的声能高出至少阈值量方面的变化，则装置201可以被配置为基于检测到的变化调整提供的动态余量。例如，如果检测到声源已经改变，使得最响亮的声源现在是不想要的声源，则可以减少动态余量。相反，如果检测到声源已经改变，使得最响亮的声源现在是想要的声源，则可以增加动态余量。
83.可以使用任何合适的方式来控制所提供的动态余量的量。在一些示例中，可以通过使用自动增益控制来控制所提供的动态余量的量。在一些示例中，可以通过使用不同类型的压缩来控制所提供的动态余量的量。
84.图4示出了可以在本公开的一些示例中使用的另一示例方法。该方法可以使用如图1所示的电子设备101和/或如图2所示的装置201来实现。
85.该方法包括，在块401，分析声音信号以确定在第一方向上的声能是否大于在第二方向上的声能。第一方向可以包括感兴趣区域并且第二方向可以包括感兴趣区域之外的一
个或多个方向。在块401，可以确定在第一方向上的声能是否比在第二方向上的声能大至少阈值量。阈值量可以通过要用于音频缩放的处理或任何其他合适的因素来确定。
86.如果在第一方向上的声能比在第二方向上的声能大至少阈值量，则这指示感兴趣区域中的声源是主要声源。如果是这种情况，那么在块403，该方法包括控制在音频文件中提供的动态余量的量以便留下大量的动态余量。
87.留下大量的动态余量可以包括留下足以使得能够通过使用放大来实现音频缩放的动态余量。在某些示例中，动态余量可能在12db左右。
88.可以使用任何合适的方式来控制所提供的动态余量的量。可以通过控制例如自动增益控制的算法，和/或通过使用适当的压缩，和/或通过使用任何其他适当的方式，来控制所提供的动态余量的量。
89.在块405，确定是否选择了音频缩放。电子设备101的用户可以通过使用电子设备101的用户界面或通过任何其他合适的方式进行输入，来选择音频缩放。例如，用户可能正在缩放由摄像机115捕获的图像，这也可能导致音频缩放。
90.如果选择了音频缩放，则在块407，使用包括放大的过程来实现音频缩放。该过程可以包括对想要的声源的放大。这种放大可以利用音频文件中提供的动态余量。
91.如果在第一方向上的声能不大于在第二方向上的声能至少阈值量，则这指示感兴趣区域中的声源不是主要声源。例如，可能有一些响亮的声源不在感兴趣的区域内，或者可能有很多背景噪音。如果是这种情况，则在块409，该方法包括控制所提供的动态余量的量以在音频文件中留下很少的动态余量。
92.留下很少的动态余量可以包括留下不足以使得能够通过使用放大来实现音频缩放的动态余量。留下少量动态余量可以包括与留下大量的动态余量的情况相比，留下少得多的动态余量。例如，所提供的动态余量可能远小于12db。
93.可以使用任何合适的方式来控制所提供的动态余量的量。可以通过控制例如自动增益控制的算法、和/或通过使用适当的压缩、和/或通过使用任何其他适当的方式，来控制所提供的动态余量的量。
94.在块411，确定是否选择了音频缩放。如上所述，电子设备101的用户可以通过使用电子设备101的用户界面或通过任何其他合适的方式进行输入来选择音频缩放。例如，用户可能正在缩放由摄像机115捕获的图像，这也可能导致音频缩放。
95.如果选择了音频缩放，则在块413，使用衰减来实现音频缩放。衰减不需要利用任何动态余量。衰减可以包括衰减不想要的声源。衰减可以包括衰减在第二方向上的声源。
96.一旦已经实施了音频缩放，则该过程返回，或者如果确定没有选择音频缩放，则该方法返回到块401并且分析音频信号以针对不同的时间段确定在第一方向上的声能是否比在第二方向上的声能大。这可以使得能够检测到声源中的变化。
97.在本公开的示例中，例如图4所示的方法，在用户已经选择音频缩放之前确定将用于实现缩放的过程。也就是说，如果在块403，留下大量的动态余量，则可以使用放大来实现音频缩放，或者如果在块409，只留下少量动态余量，则可以使用衰减来实现音频缩放。这可以使得能够逐渐实现在不同类型处理之间的任何切换。这可以减少在不同类型的处理之间切换时造成的伪影。
98.图5示出了可以使用如图1所示的电子设备101和/或如图2所示的装置201来实现
的另一示例方法。
99.在图5的示例中，多个麦克风107捕获声音场景。图5中示出了两个麦克风107，然而，在本公开的其他示例中可以提供多于两个的麦克风107。
100.多个麦克风107将音频信号提供给音频增益控制(acg)模块501并且还提供给声源定位模块503。
101.声源定位模块503可以被配置为确定一个或多个声源的位置。声源定位模块503可以确定声源是在感兴趣区域内还是在感兴趣区域外。例如，声源定位模块可以确定声源是在摄像机115的视野内还是在摄像机115的视野之外。
102.声源定位模块503还可以被配置为确定不同声源的相对声能，并确定感兴趣区域内的声源是否比感兴趣区域外的声源明显响亮。这提供了关于主要声源是想要的声源还是不想要的声源的指示。
103.声源定位模块503还可以被配置为确定将要提供的动态余量的量。例如，如果确定想要的声源是主要声源，则可以提供大量的动态余量。如果确定不想要的声源是主要声源，则可以提供少量的动态余量。声源定位模块503向acg模块501提供指示音频文件内将要提供的动态余量的量的控制信号。
104.acg模块501被配置为接收来自麦克风107的音频信号和来自声源定位模块503的指示将要提供的动态余量的量的输入信号。
105.acg模块501可以被配置为控制来自麦克风107的音频信号的电平。acg模块501可以控制音频信号的电平，使得它们被设置在用户听得舒服的电平。acg模块501可以使用来自声源定位模块503的输入信号来控制所提供的动态余量的量。
106.来自acg模块501的信号被提供给空间音频处理模块505。空间音频处理模块可以处理音频信号以提供空间音频输出。空间音频输出可以包括输出，使得用户可以在空间音频输出被渲染和回放给用户时感知音频的特殊效果。
107.可以使用任何合适的过程来生成空间音频输出。用于生成空间音频输出的过程还可以包括音频缩放模块507，其可以被配置为使得能够进行音频缩放。音频缩放模块507可以指示音频缩放是否可以通过放大想要的声源或者通过衰减不想要的声源或者通过任何其他合适的过程来实现。
108.一旦生成了空间音频，就提供输出音频信号509。输出音频信号509包括空间音频信号。在包括输出音频信号509的音频文件中提供的动态余量是基于主要声源是想要的声源还是不想要的声源以及用于实现音频缩放的过程来提供的。
109.图6示出了相对于电子设备201定位的示例声源603、605。
110.在图6的示例中，电子设备101具有感兴趣区域601。感兴趣区域可以是摄像机115的视野、摄像机115的视野的一部分、正在用于音频通话的麦克风周围的区域或任何其他合适的区域。
111.在图6中，两个声源603、605在电子设备101周围的环境中。第一声源603位于感兴趣区域601内。因此第一声源603可以是想要的声源。
112.第二声源605位于感兴趣区域601之外。因此第二声源605可能是不想要的声源。在该示例中，第二声源605被定位为朝向电子设备101的后部。第二声源605被设置在电子设备101的与第一声源603和感兴趣区域601相反的一侧。
113.在图6的示例中，两个声源603、605被示为相同的大小，指示它们具有相同或相似的响度。在本公开的示例中，电子设备101和/或电子设备101内的装置201可以被配置为比较声源603、605的响度，并且确定想要的声源603是否是主要声源。
114.图6还示出了可由电子设备101使用的多个波束形成器模式607、609、611、613。可用的不同波束形成器模式607、609、611、613可以由电子设备101内的麦克风107的数量以及那些麦克风107的相对位置来确定。
115.在一些示例中，波束形成器模块607、609、611、613可用于确定给定方向内的声能，并因此提供对声源603的位置的估计。给定方向上的声能可以通过对波束形成信号的能量求和来测量，其中波束形成器的观察方向对应于该方向。在本公开的其他示例中可以使用用于估计给定方向上的声能的其他方法。例如，可以使用声音信号的到达方向分析或任何其他合适的过程。
116.不同的波束形成器模式607、609、611、613可以用于适当地放大或衰减声源603、605。例如，可以基于波束形成器图案模式607、609、611、613的观察方向以及想要和不想要的声源603、605的位置，将不同的增益应用于不同的波束形成器模式607、609、611、613。
117.图7a到7c示出示例声源603、605和信号701、702。
118.图7a示出了声源603、605相对于电子设备101的位置。在该示例中，第一声源603位于感兴趣区域601内，因此是想要的声源。第二声源605位于感兴趣区域601之外，因此是不想要的声源。
119.在图7a的示例中，第一声源603和第二声源605具有相同或基本相同的响度。这意味着所需方向上的声能与不想要的方向上的声能相同或大致相同。因此，当实施图3至图5所示的方法时，将确定第一方向上的声能不大于第二方向上的声能至少阈值量。
120.图7b示出了在已经应用acg之后但在对信号进行任何缩放之前的音频信号。这示出了对应于第一声源603的第一信号701和对应于第二声源605的第二信号703。这示出了第一信号701和第二信号703具有相同或大致相同的幅度。
121.在该示例中，仅提供少量的动态余量，因为可以使用对不想要的声源605的衰减来实现音频缩放。这最大化或基本上最大化音频信号701的响度。
122.图7c示出了缩放后的音频信号。在该示例中，通过相对于想要的声源603衰减不想要的声源605来应用缩放。在图7c的示例中，第一信号701具有比第二信号703更大的幅度。在图7c的示例中，第一信号701的幅度与图7b的示例相比没有改变，但是第二信号703的幅度已经减小。与不想要的声源605相比，这有效地放大了想要的声源603。这种衰减不需要使用非常大的可用动态余量，但确实提供了用户可清楚感知的音频差异。
123.图8a到8c示出了示例声源603和相应信号的另一种布置。
124.图8a示出了声源603相对于电子设备101的位置。在该示例中，仅存在一个声源603。声源603位于感兴趣区域601内，因此是想要的声源。在此示例中，没有不想要的声源。这意味着在想要的方向上的声能高于在不想要的方向上的声能。在该示例中，声源603足够响亮，使得在想要的方向上的声能比在不想要的方向上的声能高出至少阈值量。
125.图8b示出了在已经应用acg之后但在对信号进行任何缩放之前的音频信号。这示出了对应于声源603的第一信号701。
126.在该示例中，提供了大量的动态余量，因为可以使用对想要声源603的放大来实现
音频缩放。因此，音频文件需要包括足够的动态余量以使得能够进行放大。
127.图8c示出了在已经应用缩放之后的音频信号701。在该示例中，缩放是通过放大来应用的。在图8c的示例中，与图8b的示例相比，音频信号701的幅度已经增加了。信号的幅度的这种显着变化提供了可以由收听音频的用户感知的音频的明显变化。
128.图9a到9c示出示例声源603和对应信号的另一种布置。
129.图9a示出了声源603、605相对于电子设备101的位置。在该示例中，第一声源603位于感兴趣区域601内，因此是想要的声源。第二声源605位于感兴趣区域601之外。因此第二声源605是不想要的声源。
130.在图9a的示例中，第一声源603比第二声源605响亮得多。这表现为第二声源605远小于第一声源603。在这种情况下，将确定在第一方向上的声能比在第二方向上的声能大至少阈值量。
131.图9b示出了在已经应用acg之后但在对信号进行任何缩放之前的音频信号。这示出了对应于第一声源603的第一信号701和对应于第二声源605的第二信号703。这表明第一信号701具有比第二信号703更大的幅度。
132.在该示例中，提供了大量的动态余量，因为可以使用对想要声源603的放大来实现音频缩放。因此，音频文件需要包括足够的动态余量以使得能够进行放大。
133.图9c示出了缩放后的音频信号。在该示例中，缩放是通过放大来应用的。在图9c的示例中，与图9b的示例相比，音频信号701的幅度已经增加了。在该示例中，整体电平也可以被提高。信号的幅度的这种显着变化提供了可以由收听音频的用户感知的音频的明显变化。
134.上述示例的变体可以用于本公开的实现。例如，在一些示例中，除acg之外的过程可用于控制音频信号的响度和所提供的动态余量的量。例如，在一些示例中，音频信号的压缩可用于控制音频信号的响度和所提供的动态余量的量。
135.压缩可以包括使用不同的压缩曲线。压缩可以与增益因子一起使用，从而使得使用的压缩越多，音频信号可以在不削波的情况下被放大得越多。在一些示例中，压缩可以包括多频带压缩，其可以包括在不同频带中使用不同的压缩。
136.使用的压缩曲线取决于是否选择了音频缩放。
137.音频缩放在某些频带可能比其他频段频带更有效。在此种示例中，可以使用多频带压缩，并且压缩曲线可能仅取决于是否针对受音频缩放影响的频率选择了音频缩放。
138.不同的压缩曲线可用于控制动态余量的量，也可用于调整所需的动态余量的量。不同的压缩曲线可以与acg和/或任何其他合适的过程一起使用。
139.同样在上述示例中，控制动态余量以提供大量的动态余量或小量的动态余量。在一些示例中，所提供的动态余量可能介于这两个极端之间。例如，如果确定声音环境中的相对声能正在改变，则可以改变所提供的动态余量以将其考虑在内。可以逐渐改变所提供的动态余量，以避免在两个极端之间突然切换。因此，对于正在发生逐渐变化的时间段，所提供的动态余量可能在最大量和最小量之间。
140.因此，本公开的示例基于主导声音是不想要的声音还是想要的声音来控制所提供的动态余量的量。这可以使得音频缩放能够被使用，同时使用音频文件中可用的动态余量来最大化或基本上最大化音频信号的响度。本公开的示例通过确保始终有足够的动态余量
可用于音频缩放来减少音频剪辑。
141.本文档中使用的术语“包含”具有包容性而非排他性。即任何提及包含y的x指示x可能仅包含一个y或可能包含多个y。如果打算使用具有排他意义的“包含”，那么将在上下文中通过提及“仅包含一个
……”
或使用“由
……
组成”来明确说明。
142.在本说明书，参考了各种示例。与示例相关的特征或功能的描述指示那些特征或功能存在于该示例中。在文本中使用术语“示例”或“例如”或“可以”或“可能”表示，无论是否明确说明，这些特征或功能至少存在于所描述的示例中，并且无论是否描述为示例与否，它们可以但不一定存在于某些或所有其他示例中。因此，“示例”、“例如”、“可能”或“可以”指的是一类示例中的特定实例。实例的属性可以是仅该实例的属性或类的属性或包括类中的一些但不是所有实例的类的子类的属性。因此，隐含地公开了参考一个示例而不是参考另一示例描述的特征可以在可能的情况下作为工作组合的一部分用于该另一示例中，但不一定必须用于该另一示例。
143.尽管在前面的段落中已经参考各种示例描述了示例，但是应当理解，可以在不脱离权利要求的范围的情况下对给出的示例进行修改。
144.前面说明书中描述的特征可以按除了上面明确描述的组合之外的组合使用。
145.尽管已经参考某些特征描述了功能，但是这些功能可以由其他特征执行，无论是否描述。
146.尽管已经参考某些示例描述了特征，但是那些特征也可以存在于其他示例中，无论是否描述。
147.本文件中使用的术语“一”或“该”具有包容性而非排他性。即任何提及包含一/该y的x指示x可以仅包含一个y或可以包含多于一个y，除非上下文清楚地表明相反。如果打算使用具有排他含义的“一”或“该”，则将在上下文中明确说明。在某些情况下，可以使用“至少一个”或“一个或多个”来强调包容性的含义，但不应将这些术语的缺失视为推断出任何排他性的含义。
148.权利要求中的特征(或特征组合)的存在是对该特征或(特征组合)本身的引用，以及对实现基本相同技术效果的特征(等效特征)的引用。等效特征包括例如变体并且以基本相同的方式实现基本相同结果的特征。
149.等效特征包括例如以基本上相同的方式执行基本上相同的功能以实现基本上相同的结果的特征。
150.在本说明书中，参考了各种示例，使用形容词或形容词短语来描述示例的特征。与示例相关的特性的这种描述指示该特性在一些示例中完全如所描述的那样存在并且在其他示例中基本上如所描述的那样存在。
151.尽管在上述说明中努力引起人们对那些被认为很重要的特征的关注，但应当理解，申请人可以经由权利要求就前面提到和/或在附图中示出的任何专利的特征或特征组合寻求保护，无论是否强调。

技术特征：

1.一种装置，包括：至少一个处理器，以及包括计算机程序代码的至少一个存储器，所述至少一个存储器与所述计算机程序代码被配置为与所述至少一个处理器一起使得所述装置至少：针对音频信号，确定在至少一个第一方向上的声能是否与在至少一个第二方向上的声能相差至少阈值量；并且基于所述在所述至少一个第一方向上的声能是否与所述在所述至少一个第二方向上的声能相差至少所述阈值量，来控制所提供的动态余量的量。2.根据权利要求1所述的装置，其中，所述第一方向在感兴趣区域内，所述第二方向在所述感兴趣区域外。3.根据权利要求1所述的装置，其中，所提供的所述动态余量的量被控制以便使得能够进行音频缩放。4.根据权利要求1所述的装置，其中，如果所述在所述至少一个第一方向上的声能没有与所述在所述至少一个第二方向上的声能相差至少所述阈值量，则所述动态余量的量被控制为足够大到使得在选择音频缩放时能够进行对所述音频信号的放大。5.根据权利要求1所述的装置，其中，如果所述在所述至少一个第一方向上的声能与所述在所述至少一个第二方向上的声能相差至少所述阈值量，则所述动态余量的量被控制为不足够大到使得在选择音频缩放时能够进行对所述音频信号的放大。6.根据权利要求1所述的装置，其中，如果在选择音频缩放时所提供的所述动态余量不足够大到使得能够进行对所述音频信号的放大，则所述装置被配置为通过衰减不想要的声源来使得能够进行音频缩放。7.根据权利要求1所述的装置，被使得进行以下中的至少一个：检测在所述在所述至少一个第一方向上的声能是否比所述在所述至少一个第二方向上的声能高至少所述阈值量的方面的变化；以及基于所检测到的变化调整所提供的所述动态余量。8.根据权利要求1所述的装置，其中，所提供的所述动态余量的量是通过以下中的至少一个控制的：使用自动增益控制；以及所使用的压缩。9.根据权利要求1所述的装置，其中，所述声能被测量为波束形成信号的总和。10.根据权利要求1所述的装置，其中，所述装置被使得针对所述音频信号确定所述在所述至少一个第一方向上的声能是否比所述在所述至少一个第二方向上的声能高至少所述阈值量。11.一种方法，包括：针对音频信号，确定在至少一个第一方向上的声能是否与至少一个第二方向上的声能相差至少阈值量；以及基于所述在所述至少一个第一方向上的声能是否与所述在所述至少一个第二方向上的声能相差至少所述阈值量，来控制所提供的动态余量的量。
12.根据权利要求11所述的方法，其中，所述第一方向在感兴趣区域内并且所述第二方向在所述感兴趣区域外。13.根据权利要求11所述的方法，其中，所提供的所述动态余量的量被控制以便使得能够进行音频缩放。14.根据权利要求11所述的方法，其中，如果所述在所述至少一个第一方向上的声能没有与所述在所述至少一个第二方向上的声能相差至少所述阈值量，则所述动态余量的量被控制为足够大到使得在选择音频缩放时能够进行对所述音频信号的放大。15.根据权利要求11所述的方法，其中，如果所述在所述至少一个第一方向上的声能与所述在所述至少一个第二方向上的声能相差至少所述阈值量，则所述动态余量的量被控制为不足够大到使得在选择音频缩放时能够进行对所述音频信号的放大。16.根据权利要求11所述的方法，其中，如果在选择音频缩放时所提供的所述动态余量不足够大到使得能够进行对所述音频信号的放大，则所述方法进一步包括通过衰减不想要的声源来使得能够进行音频缩放。17.根据权利要求11所述的方法，进一步包括以下中的至少一个操作：检测在所述在所述至少一个第一方向上的声能是否比所述在所述至少一个第二方向上的声能高至少所述阈值量的方面的变化；以及基于所检测到的变化调整所提供的所述动态余量。18.根据权利要求11所述的方法，其中，所提供的所述动态余量的量是通过以下中的至少一个控制的：使用自动增益控制；以及所使用的压缩。19.根据权利要求11所述的方法，其中，所述声能被测量为波束形成信号的总和。20.根据权利要求11所述的方法，其中，所述方法包括针对所述音频信号确定所述在所述至少一个第一方向上的声能是否比所述在所述至少一个第二方向上的声能高至少所述阈值量。

技术总结

本公开的示例涉及用于使得能够进行音频缩放的装置、方法和计算机程序。该装置可以包括用于以下操作的部件：针对音频信号确定在至少一个第一方向上的声能是否与在至少一个第二方向上的声能相差至少阈值量。该部件还可以用于基于在至少一个第一方向上的声能是否与至少一个第二方向上的声能相差至少阈值量来控制所提供的动态余量的量。控制所提供的动态余量的量。