一种生成特效视频的方法、装置、电子设备及存储介质与流程

更新时间:2025-12-21 18:42:16 0条评论

默认

一种生成特效视频的方法、装置、电子设备及存储介质与流程

1.本公开实施例涉及图像处理技术，尤其涉及一种生成特效视频的方法、装置、电子设备及存储介质。

背景技术：

2.随着网络技术的发展，越来越多的应用程序进入了用户的生活，尤其是一系列可以拍摄短视频的软件，深受用户的喜爱。
3.现有技术中，软件开发商可以在应用中添加各种各样的特效道具，以供用户在拍摄视频的过程中使用，然而，这些特效道具的丰富度不足，无法完全匹配用户的需求。

技术实现要素：

4.本公开提供一种生成特效视频的方法、装置、电子设备及存储介质，以实现对音频进行特效处理，从而丰富特效展示效果，进而提高了用户体验的技术效果。
5.第一方面，本公开实施例提供了一种生成特效视频的方法，该方法包括：
6.当检测到满足混音条件时，确定待处理视频帧中至少一个目标对象所对应的至少一个混音音频；其中，待处理视频帧为实时采集的视频帧或录制视频中的视频帧；
7.基于至少一个混音音频以及至少一个目标对象的音频信息，确定待处理视频帧的目标音频；
8.基于目标音频和至少一个目标对象，确定与待处理视频帧相对应的特效视频帧。
9.第二方面，本公开实施例还提供了一种生成特效视频的装置，该装置包括：
10.混音音频确定模块，用于当检测到满足混音条件时，确定待处理视频帧中至少一个目标对象所对应的至少一个混音音频；其中，待处理视频帧为实时采集的视频帧或录制视频中的视频帧；
11.目标音频确定模块，用于基于至少一个混音音频以及至少一个目标对象的音频信息，确定待处理视频帧的目标音频；
12.特效视频帧确定模块，用于基于目标音频和至少一个目标对象，确定与待处理视频帧相对应的特效视频帧。
13.第三方面，本公开实施例还提供了一种电子设备，电子设备包括：
14.一个或多个处理器；
15.存储装置，用于存储一个或多个程序，
16.当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如本公开实施例任一的生成特效视频的方法。
17.第四方面，本公开实施例还提供了一种包含计算机可执行指令的存储介质，计算机可执行指令在由计算机处理器执行时用于执行如本公开实施例任一的生成特效视频的方法。
18.本公开实施例的技术方案，当检测到满足混音条件时，可以确定待处理视频帧中
至少一个目标对象所对应的至少一个混音音频，进而基于所确定的混音音频以及至少一个目标对象的音频信息，可以确定多个音轨所对应的目标音频，通过对目标音频和目标对象进行融合处理，可以得到最终的特效视频帧。实现了不仅可以对画面内容进行处理，还可以对音频内容进行处理的技术效果，提升了特效展示效果的丰富性、趣味性，还进一步提升了用户使用体验的技术效果。
附图说明
19.结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。
20.图1是本公开实施例所提供的一种生成特效视频的方法流程示意图；
21.图2是本公开实施例所提供的生成特效视频应用程序的用户显示界面；
22.图3是本公开实施例所提供的生成特效视频的界面示意图；
23.图4是本公开实施例所提供的一种生成特效视频的方法流程示意图；
24.图5为本公开实施例所提供的一种生成特效视频的方法流程示意图；
25.图6是本公开实施例所提供的一种至少一个目标对象显示位置的示意图；
26.图7是本公开实施例所提供的另一种至少一个目标对象显示位置的示意图；
27.图8是本公开实施例所提供的另一种至少一个目标对象显示位置的示意图；
28.图9是本公开实施例所提供的一种分割图像显示位置的示意图；
29.图10是本公开实施例所提供的另一种分割图像显示位置的示意图；
30.图11是本公开实施例所提供的另一种分割图像显示位置的示意图；
31.图12为本公开实施例所提供的一种生成特效视频的方法流程示意图；
32.图13是本公开实施例所提供的一种3d话筒的显示位置的示意图；
33.图14是本公开实施例所提供的一种生成特效视频的装置结构示意图；
34.图15是本公开实施例所提供的一种电子设备的结构示意图。
具体实施方式
35.下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。
36.应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
37.本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
38.需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单
元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
39.需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。
40.本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。
41.可以理解的是，在使用本公开各实施例公开的技术方案之前，均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
42.例如，在响应于接收到用户的主动请求时，向用户发送提示信息，以明确地提示用户，其请求执行的操作将需要获取和使用到用户的个人信息。从而，使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。
43.作为一种可选的但非限定性的实现方式，响应于接收到用户的主动请求，向用户发送提示信息的方式例如可以是弹窗的方式，弹窗中可以以文字的方式呈现提示信息。此外，弹窗中还可以承载供用户选择“同意”或者“不同意”向电子设备提供个人信息的选择控件。
44.可以理解的是，上述通知和获取用户授权过程仅是示意性的，不对本公开的实现方式构成限定，其它满足相关法律法规的方式也可应用于本公开的实现方式中。
45.可以理解的是，本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。
46.在介绍本技术方案之前，可以先对应用场景进行示例性说明。可以将本公开技术方案应用在任意需要特效展示或者特效处理的场景中，如应用在视频拍摄过程中，可以对被拍摄目标对象进行特效处理；也可以是应用在视频拍摄过程后，例如，通过终端设备自带摄像机拍摄视频后，将预先拍摄的视频进行特效展示的情况。在本实施中，目标对象可以是用户或者任意可以发出音频信息的对象。
47.还需要说明的是，本公开实施例所提供的技术方法可以应用在实时采集的场景下，也可以应用在后处理的场景下。在实时采集的场景下，可以理解为每采集一个视频帧，就将其作为待处理视频帧，并基于本公开实施例所提供的技术方法确定相应的特效视频帧；在后处理的场景下，可以依次将上传的视频中的每一个视频帧均作为待处理视频帧。为了清楚的介绍本公开实施例所提供的技术方法，以对其中的一个视频帧处理为例进行说明，对其余视频帧的处理可以重复执行本公开实施例所提供的步骤。
48.其中，执行本公开实施例提供的生成特效视频的方法的装置，可以集成在支持特效视频处理功能的应用软件中，且该软件可以安装至电子设备中，可选的，电子设备可以是移动终端或者pc端等。应用软件可以是对图像/视频处理的一类软件，其具体的应用软件在此不再一一赘述，只要可以实现图像/视频处理即可。还可以是专门研发的应用程序，来实现添加特效并将特效进行展示的软件中，亦或是集成在相应的页面中，用户可以通过pc端中集成的页面来实现对特效视频的处理。
49.图1是本公开实施例所提供的一种生成特效视频的方法流程示意图，本公开实施例适用于对音频进行特效处理的情形，该方法可以由生成特效视频的装置来执行，该装置
可以通过软件和/或硬件的形式实现，可选的，通过电子设备来实现，该电子设备可以是移动终端、pc端或服务器等。本公开实施例所提供的技术方案可以由服务端执行，也可以由客户端执行，还可以由客户端和服务端配合执行。
50.如图1所示，所述方法包括：
51.s110、当检测到满足混音条件时，确定待处理视频帧中至少一个目标对象所对应的至少一个混音音频。
52.其中，混音条件可以理解为确定是否需要对待处理视频帧的音频进行特效处理的条件。
53.在本公开实施例中，混音条件可以包括多种情形，相应的，可以基于当前触发操作是否满足相应的情形，确定其是否对待处理视频帧中的音频信息进行处理。
54.可选的，混音条件包括的情形可以是：
55.触发于混音特效相对应的特效道具；显示界面中包括至少一个目标对象；触发拍摄控件；检测到基于触发的视频处理控件上传的录制视频。
56.在本实施例中，确定混音条件的第一种方式是触发于混音特效相对应的特效道具，可以理解为：基于本公开实施例所提供的技术方法，对程序代码或者处理数据进行压缩处理，使其作为一个特效包集成于某些应用程序软件中，作为特效道具。当触发特效道具时，说明当前是需要对采集的待处理视频帧中的音频进行特效处理，此时是满足混音条件的。
57.确定混音条件的第二种方式是显示界面中包括至少一个目标对象，不论是实时采集的视频帧还是非实时的视频帧，只要检测到入镜画面，即待处理视频帧中包括相应的目标对象的，此时便认为满足混音条件。其中，目标对象可以是预先设定的。例如，目标对象可以是用户，只要检测到显示界面中有用户，计算机就认为满足混音条件。
58.确定混音条件的第三种方式是触发拍摄控件，可以将拍摄控件作为触发条件，其中，拍摄控件是预先编写好的，当基于摄像装置拍摄图像时，点击拍摄控件就说明满足了混音条件，此时只要采集的待处理视频帧中包括音频内容，就需要对音频进行特效处理。
59.还有一种确定混音条件的第四种方式是检测到基于触发的视频处理控件上传的录制视频，本方案不仅可以达到实时处理的效果，还可以进行后处理，当接收到上传的录制视频时，就说明其需要对视频进行处理，可以基于本发明实施例的方法进行特效处理。
60.在本实施例中，在确定待处理视频帧的过程中，主要涉及两种方式：分别是实时采集的视频帧和录制视频中的视频帧，而对于这两种确定方式可以包括多种混音条件。这样设置的好处在于：无论用户是通过何种方式确定待处理视频帧，都可以通过多种混音条件，确定待处理视频帧中目标对象所对应的混音音频，使得本方案的适用范围更广。
61.待处理视频帧可以基于实时拍摄视频确定，也可以基于非实时拍摄视频确定。只要满足混音条件，就可以依次对实时采集视频或者上传视频的视频帧进行处理，可以将每一个视频帧都作为待处理视频帧。还有一种情形是如果在可选择的条件下对某些视频帧进行特效处理，可以将所选的每一个视频帧作为待处理视频帧。
62.目标对象为待处理视频帧中的所呈现的用户图像，目标对象的数量可以是一个或者多个，至于目标对象的数量的个数可以根据实际的情况进行预先设定。例如，如果预先设定是将所有入镜画面中的对象都作为目标对象，则目标对象的数量与入镜画面的用户数量
是相对应的；如果仅需要对特定的某些用户进行特效处理，可以预先上传对象所对应的面部图像，以在入镜画面中包括多个显示对象时，可以基于上传的面部信息和显示对象的面部信息，确定目标对象；另外，还有一种方式是：基于目标用户于显示界面的触发操作，确定目标对象。例如，显示界面的对象有多个，可以将目标用户触发选择的对象作为目标对象。即，仅需要对触发选择的目标对象进行特效处理。
63.混音可以理解为是把多种来源的声音，整合至一个立体音轨或单音音轨中。其中，多种声音的来源可以是不同用户所对应的不同声部的音频。因此，混音音频可以理解为多个其他演奏者演唱同一首歌曲中不同声部所对应的音频。例如，预先设定某几首歌曲，可以基于多个用户确定相应的混音音频。可以预先制作不同用户相适配的混音音频，例如，混音音频可以按照年龄阶段进行区分，可以按照性别属性进行区分，也可以按照声调进行区分。如果是按照年龄阶段进行区分可以分为：儿童、少年、青年、中年或者老年；如果是按照性别属性进行区分可以分为：男声部或者女声部；如果是按照音调进行区分可以分为：高音部、中音部或者低音部。在实际用过程中，可以预先设置一首歌或者几首歌多种划分标准对应的混音音频，以供目标用户使用。混音音频的数量可以是与目标对象的数量相对应，也可以通过触发选定某几个混音音频。
64.示例性的，当目标用户触发应用软件或应用程序，进入生成特效视频应用程序的目标用户显示界面，参见图2。如图2所示，位于用于显示界面的最下方中间的控件为调用移动设备摄像装置的控件，当目标用户触发名称为“拍摄”的控件时，移动终端设备感启动拍摄装置进行拍摄，此时可以拍摄用户图像，将移动终端设备中拍摄的视频作为待处理视频帧，而所拍摄到的用户图像可以作为目标对象，可以确定目标对象所对应的混音音频。也可以预先设定混音特效道具对应的控件，通过触发特效道具控件作为混音条件，这种混音条件的一种显示界面可以参见图3。如图3所示，界面中可以设置触发选定待选择混音音频的控件，例如图中的“声部1”、“声部2”、“声部3”、“声部4”对应的控件，当目标用户触发其中的任意控件，表明目标用户选定了该控件对应的混音音频，在实际应用过程中，目标用户可以触发显示界面中显示的所有待选择混音音频的控件，如果触发多个控件，可以确定多个混音音频。另外，如图2所示，位于显示界面的右下方的控件为上传预先拍摄视频的控件，当目标用户触发名称为“相册”的控件时，跳转到相册浏览界面，可以从移动设备相册中寻并选择预先拍摄的视频，将选定的预先拍摄的视频作为待处理视频帧显示界面中，而待处理视频帧的用户图像可以作为目标对象，可以确定目标对象所对应的混音音频。
65.s120、基于至少一个混音音频以及至少一个目标对象的音频信息，确定待处理视频帧的目标音频。
66.其中，音频信息为基于音频采集模块，例如，麦克风阵列采集的与目标对象对应的音频数据。目标音频可以理解为在确定混音音频与目标对象对应的音频数据之后，将二者进行双轨音频进行播放。例如，确定的混音音频是儿童声部，实际采集的音频信息是青年人的音频，可以将儿童声部与青年人的音频作为双音轨音频，共同作为目标音频进行播放。
67.示例性的，参见图3，若显示界面中显示的混音控件与声部1、声部2、声部3、声部4等所对应的，基于目标用户对这些控件的触发操作，如触发的是声部1和声部2，则将声部1和声部2作为混音音频，基于声部1、声部2以及目标对象所对应的音频信息共同作为目标音频。
68.在本实施例中，每个目标对象所对应的属性是有差别的，例如，目标对象可以是老年人、中年人或者儿童，可以将所有对象的音频信息和混音音效整体共同作为目标音频，并基于扬声器进行播放。如果想要体现出多人同时唱歌的效果，可以是直接将所有对象的音频信息和混音音效作为多音轨进行播放，如果想要体现出某一个目标对象的音频信号，那么此时可以在显示界面中设置控件，控件用于选择到底播放哪位目标用户的音频信息。例如，目标对象a和目标对象b，仅体现出目标对象a的音频信号，那么此时可以在显示界面中目标对象a附近设置控件，触发这一控件选择仅仅播放目标对象a的音频信号，而目标用户b的音频信号可以做消音处理。
69.需要特别说明的是，还可以在显示界面中显示与混音音频歌曲所对应的歌曲文本信息，以引导目标用户基于歌曲文本信息进行阅读、演唱或者播报。
70.s130、基于目标音频和至少一个目标对象，确定与待处理视频帧相对应的特效视频帧。
71.在本实施例中，特效视频帧为同时展示目标对象与目标音频的视频帧。目标音频中包含混音音频以及目标对象的音频信息，而目标对象对应的是视频帧中的图像信息。基于所确定的目标音频，在显示界面中同时显示与目标音频相对应的目标对象，以使目标对象的展示画面与目标音频是相一致的，从而得到特效视频帧。
72.需要特别说明的是，对于每一帧待处理视频帧，均将目标音频与目标对象进行融合处理，可以得到每一帧特效视频帧，最终将各特效视频帧在时间上进行拼接，得到特效视频。
73.本公开实施例的技术方案，当检测到满足混音条件时，可以确定待处理视频帧中至少一个目标对象所对应的至少一个混音音频，进而基于所确定的混音音频以及至少一个目标对象的音频信息，可以确定多个音轨所对应的目标音频，通过对目标音频和目标对象进行融合处理，可以得到最终的特效视频帧。实现了不仅可以对画面内容进行处理，还可以对音频内容进行处理的技术效果，提升了特效展示效果的丰富性、趣味性，还进一步提升了目标用户使用体验的技术效果。
74.图4是本公开实施例所提供的一种生成特效视频的方法流程示意图，在前述实施例的基础上，确定待处理视频帧中目标对象所对应的混音音频可以通过多种方式实现，在确定目标音频的过程中，可以根据音频信息对应的音量信息确定目标音频。其具体的实施方式可以参见本实施例技术方案。其中，与上述实施例相同或者相应的技术术语在此不再赘述。
75.如图4所示，该方法具体包括如下步骤：
76.s210、确定至少一个混音音频。
77.在本公开实施例中，确定至少一个混音音频的方式可以有多种，接下来详细阐述每一种方式具体是如何实现的。
78.第一种实现方式为：基于对显示界面上至少一个混音控件的触发操作，确定至少一个混音音频。
79.在本实施例中，基于对显示界面上混音控件的触发操作，确定混音音频的方式适用于待处理视频帧为实时采集的视频帧或者或录制视频中的视频帧的情形。当目标用户触发显示界面中的混音特效相对应的特效道具时，可以根据显示界面中的控件提示，直接选
定控件对应的混音音效，目标用户可以同时选择多个混音控件，此时确定的混音音频的数量与目标用户触发混音控件的数量是对应的。例如，在图3中，目标用户触发显示界面中的声部1控件，此时可以直接确定混音音效为声部1的音效内容；如果目标用户在预设时长内触发了界面中声部1、声部2和声部3对应的控件，则可以将声部1、声部2和声部3对应的音频内容均作为混音音频。在此，可以预先设置根据触发特效道具控件的次数，确定是否选定特效道具控件对应的声部，示例性的，如果目标用户触发特效道具的控件的次数为奇数次，例如，目标用户触发特效道具的控件的次数1次、3次，则表明选中当前控件对应的声部；如果目标用户触发特效道具的控件的次数为偶数次，例如，目标用户触发特效道具的控件的次数2次、4次，此时说明用户已经触发了一次特效道具的控件，在触发控件的基础上又触发了相同的控件，则表明目标用户将当前控件对应的声部进行取消操作，即当前控件对应的声部不作为最终要展示的混音音频。
80.第二种实现方式为：根据至少一个目标对象的对象属性，确定至少一个混音音频。
81.在本实施例中，根据目标对象的对象属性确定混音音频的方式，适用于待处理视频帧为实时采集的视频帧或者或录制视频中的视频帧的情形。在本实施例中，目标对象可以具有多种属性，例如，可以从性别方面区分不同的属性，也可以从年龄阶段区分不同的属性。目标对象的属性不同，根据目标对象的属性确定的混音音频也是不同的。可选的，根据至少一个目标对象的对象属性，确定至少一个混音音频的方法可以包括：基于面部检测算法识别至少一个目标对象的对象属性；基于对象属性的属性类别数量和对象属性，从预先制作的至少一个待选择混音中，确定出与属性类别数量相一致的混音音频。这样设置的好处在于：基于面部识别算法，结合属性类别数量，确定的混音音频与待处理视频中的目标对象匹配度更高，达到更加逼真的特效展示效果。
82.在本实施例中，根据面部识别算法，如果检测到显示界面中属性数量值大于1，可以基于总的属性类别的数量以及多人混音音频确定混音音频。例如，如果检测到显示界面中对象属性同时包括是一位男性和一位女性，此时对象属性的属性类别数量为2，在确定混音音频的过程中，可以调取男性的混音音频、调取女性的混音音频以及多人混音音频。在实际应用过程中，检测到显示界面中对象属性可能是多位男性以及多位女性，但是此时对象属性的属性类别数量依然为2，此时不会重复调取多个男性混音音频，以及重复调取多个女性混音音频，只确定一个男性混音音频、一个女性混音音频以及多人混音音频。
83.示例性的，根据面部识别算法，如果检测到显示界面中的目标对象是一位儿童，可以将待处理视频帧对应的混音音频设定为预先配置的儿童声部；如果检测到显示界面中的目标对象是一位老年人，可以将待处理视频帧对应的混音音频设定为预先配置的老年人声部；如果预先制作的待选择混音包括儿童声部，少年声部、青年声部、中年声部和老年人声部，当检测到显示界面中的目标对象是一位儿童和一位老年人，则从预先制作的待选择混音中确定出儿童声部和老人声部作为混音音频，所以确定的混音音频的数量为2个，而对象属性的属性类别包括儿童与老年人，所以对象属性的属性类别数量为2，此时对象属性的属性类别数量与混音音频的数量是一致的；如果预先制作的待选择混音包括儿童声部，少年声部、青年声部、中年声部、老年人声部以及多人声部，当检测到显示界面中的目标对象是一位儿童和一位老年人，则从预先制作的待选择混音中确定出儿童声部、老人声部以及多人声部作为混音音频，即识别到目标对象是多人，混音音频中需要包括多人声部。
84.第三种实现方式为：根据待处理视频帧中的音频信息，确定至少一个混音音频。
85.在本实施例中，根据待处理视频帧中的音频信息确定至少一个混音音频，适用于待处理视频帧为录制视频中的视频帧的情形。确定的待处理视频帧中可以包含视频帧中原始的音频信息，原始的音频信息可以表明目标用户想要演唱的歌曲内容，此时可以先对视频帧中的音频信息进行识别，确定与视频帧中音频信息相关联的混音音频，实现满足目标用户个性化需求的效果。
86.可选的，根据待处理视频帧中音频信息的伴奏信息和和声中的目标声部，确定和声旋律；基于和声旋律中的音调信息和音频信息中的音调信息，确定至少一个混音音频。
87.其中，目标声部可以是待处理视频帧中和声的高声部、低声部、或者某个音节的和声旋律，也可以是预先标定某一个音节所对应的声部。和声旋律可以为待处理视频帧中音频信息的声部相关联的旋律。例如，在音乐创作的过程中，歌曲的音调不同，歌曲对应的旋律也会发生改变，不同声部的和声旋律也不同。例如，音乐的和声包括高声部和声、中声部和声和低声部和声，其中，高声部和声的和声旋律为旋律a，中声部和声的和声旋律为旋律b，低声部和声的和声旋律为旋律c，旋律a、旋律b和旋律c为不同的旋律。
88.具体的，首先获取待处理视频帧中音频信息的伴奏信息，例如，若待处理视频帧中音频信息为用户即兴哼唱的音频，则可以通过伴奏检测算法，获取该音频的伴奏信息，进而通过和弦匹配算法，为该伴奏匹配对应的和弦，得到待处理视频帧中音频信息的伴奏信息。随后，获取待处理视频帧中音频信息和声中的目标声部，目标声部可以为待处理视频帧中音频和声中对应的声部。例如，若待处理视频帧中音频信息和声中的声部为低声部，则目标声部为低声部；若待处理视频帧中音频信息和声中的声部为中声部，则目标声部为中声部；若待处理视频帧中音频信息和声中的声部为高声部，则目标声部为高声部。最后，基于伴奏信息和和声中的目标声部，确定和声旋律。例如，若确定和声中的目标声部为低声部，则可以降低伴奏和弦中的和弦位置，进而得到低声部的和声旋律；若确定和声中的目标声部为高声部，则可以提高伴奏和弦中的和弦位置，进而得到高声部的和声旋律。和声旋律中的音调信息和音频信息中的音调信息，可以共同反应待处理视频帧中原始的音频信息所哼唱的音频是属于哪首歌曲，进而从预先设定的混音音频中确定与这首歌曲相关的音频作为混音音频，此时确定的混音音频与待处理视频帧中原始的音频信息是高度相关的。
89.示例性的，假设待处理视频帧中音频信息为歌曲a对应的音频，则首先通过伴奏检测算法获取该音频的伴奏信息，进而通过和弦匹配算法为该伴奏匹配对应的和弦，得到待处理视频帧中歌曲a的伴奏信息；随后，获取待处理视频帧中歌曲a的目标声部为低声部，此时则可以降低伴奏和弦中的和弦位置，进而得到低声部的和声旋律。由于歌曲的音调不同，歌曲对应的旋律也会发生改变，不同声部的和声旋律也不同，因此，和声旋律中的音调信息可以表征待处理视频帧音频信息中音调信息所对应的具体歌曲内容，在确定混音音频时，将选取与歌曲a相关的音频作为混音音频。
90.在上述实施例的基础上，基于和声旋律中的音调信息和音频信息中的音调信息，确定至少一个混音音频。这样设置的好处在于：根据目标对象实际音频信息，进而确定与视频帧中实际音频信息相关联的混音音频，可以满足目标用户的个性化需求。
91.可选的，基于和声旋律中的音调信息和音频信息中的音调信息，确定至少一个混音音频，包括：基于和声旋律中的音调信息、音频信息中的音调信息和至少一个目标对象的
对象属性，确定至少一个混音音频。
92.在上述实施例的基础上，除了根据和声旋律中的音调信息、音频信息中的音调信息确定至少一个混音音频之外，还可以将目标对象的对象属性作为确定混音音频的考虑因素。例如，根据根据和声旋律中的音调信息、音频信息中的音调信息，可以确定混音音频为歌曲a，如果目标对象的对象属性为儿童，则混音音频中可以包含儿童声部演唱歌曲a的音频内容。这样设置的好处在于：根据目标对象的对象属性，确定与视频帧中实际音频信息相关联的混音音频，可以在满足目标用户的个性化需求的基础上，还可以使最终播放的目标音频与显示界面中的图像更加匹配。
93.可选的，混音音频包括至少一个声部的和声伴奏或和声伴奏中包括主唱音轨的音频。
94.在本实施例中，混音音频可以是两种不同表现方式的音频。一种是包含一个或者多个声部的和声伴奏；另一种是不仅包含一个或者多个声部的和声伴奏，还包括主唱音轨的音频，即混音音频的内容可以是只有伴奏音乐，也可以是伴奏音乐与主唱音轨二者合在一起的音乐。这样设置的好处在于：有多种混音音频的组成方式，为用户提供更多的备选播放方式，提升了特效展示效果的丰富性、趣味性。
95.在本实施例中，通常在满足某些特效添加条件的情况下，为待处理视频帧确定混音音效，而确定混音音频可以通过多种方式实现。这样设置的好处在于：采用多种方式确定混音音频，使得本方案的适用范围更广。
96.s220、根据音频信息所对应的音量信息，确定待展示音频。
97.在本实施例中，如果音频信息中录制了多位目标对象的音频内容，多位目标对应的音频音量信息是有差异的，此时可以基于音量信息确定混音音频中目标对象所对应的音轨。示例性的，待处理视频帧中包含目标对象a和目标对象b，目标对象a对当前的混音音频相对比较熟悉，那么目标对应a跟唱的音量是相对较大的，而目标对象b对当前的混音音频相对比较陌生，那么目标对应a跟唱的音量是相对较小的，此时目标对象a的音量信息强于目标对象b的音量信息，可以将目标对应a的音频信息作为待展示音频。
98.s230、将至少一个混音音频和待展示音频均作为待处理视频帧的目标音频。
99.在本实施例中，将所确定的混音音频与待展示音频进行双音轨播放。也就是说目标音频中，不仅包含混音音频，而且还包含音量信息相对较大目标对象音频。这样设置的好处在于：可以强化音量大的音频信息，弱化音量小的音频信息，以使播放的音频更加的和谐动听。
100.s240、基于目标音频和至少一个目标对象，确定与待处理视频帧相对应的特效视频帧。
101.本公开实施例的技术方案，可以采用多种方式，确定与至少一个目标对象所对应的混音音频，即可以基于对显示界面上至少一个混音控件的触发操作，确定至少一个混音音频；可以根据至少一个目标对象的对象属性，确定至少一个混音音频；也可以根据待处理视频帧中的音频信息，确定至少一个混音音频。通过多种方式确定出的混音音频与用户之间的适配性相对较高，相应的，基于混音音频与目标对象的音频信息确定出的目标音频，与实际效果是最接近的，从而提高了特效的展示效果，也扩大了本方案的适用范围。
102.图5为本公开实施例所提供的一种生成特效视频的方法的流程示意图，在前述实
施例的基础上，在特效展示界面中显示更加丰富的展示内容，营造逼真的现场氛围，其具体的实施方式可以参见本实施例技术方案。其中，与上述实施例相同或者相应的技术术语在此不再赘述。如图5所示，该方法具体包括如下步骤：
103.s310、当检测到满足混音条件时，确定待处理视频帧中至少一个目标对象所对应的至少一个混音音频。
104.s320、基于至少一个混音音频以及至少一个目标对象的音频信息，确定待处理视频帧的目标音频。
105.s330、确定与至少一个目标对象对应的至少一个分屏图像。
106.在本实施例中，待处理视频帧中可以显示一个或者多个目标对象。如果待处理视频帧中仅有一个目标对象，可以将这一个目标对象所对应的图像内容进行复制，得到分屏图像，并将分屏图像显示于显示界面中的预设位置。如果待处理视频帧中有多个目标对象，可以将多个目标对象所对应的图像内容进行整体的复制，得到分屏图像，并将分屏图像显示于显示界面中。
107.可选的，分屏图像中包括至少一个目标对象，或，每个分屏图像中包括一个目标对象。
108.在本实施例中，如果待处理视频帧中仅有一个目标对象，分屏图像中可以包括一个目标对象，参见图6。而如果待处理视频帧中有多个目标对象，分屏图像可以是通过两种方式得到，第一种是：可以将多个目标对象所对应的图像内容进行整体的抠图，多个目标对象的整体抠图内容为分屏图像，参见图7。第二种是：可以将多个目标对象所对应的图像内容进行拆分处理，即将多个目标对象分别拆分成独立的分屏图像，并显示在预设的位置上，参见图8。这样设置的好处在于：无论目标对象的数量是多少，都可以根据用户的选择确定分屏图像，增强了用户的使用体验。
109.进一步的，目标对象在显示界面中的展示效果还可以是：对至少一个目标对象分割处理，确定对象分割图像；将至少一个目标对象作为待处理视频帧的中心，并按照预设缩放比例在中心两侧堆叠显示对象分割图像，以更新特效视频帧。
110.在本实施例中，如果待处理视频帧中仅有一个目标对象，可以分割处理目标对象所对应的图像，随后以目标对象为中心，将对象分割图像按照预设缩放比例在中心两侧堆叠显示对象分割图像，参见图9。而如果待处理视频帧中有多个目标对象，可以将多个目标对象所对应的图像内容进行整体的分割处理，得到多个目标对象整体的对象分割图像，并按照预设缩放比例在中心两侧堆叠显示多个目标对象整体的对象分割图像，参见图10。另外，也可以是将多个目标对象的分别进行分割处理。示例性的，待处理视频帧中包括目标对象a和目标对象b，将目标对象a和目标对象b分别进行分割处理，以目标对象a和目标对象b的整体图像为中心，按照预设缩放比例在中心左侧堆叠目标对象a所对应的对象分割图像，按照预设缩放比例在中心右侧堆叠目标对象b所对应的对象分割图像，参见图11，其中，缩放比例可以是在原有图像的基础上缩小百分之二十。这样设置的好处在于：在特效展示页面中显示更多的对象分割图像，使得特效展示效果体现出现场合唱的情景，增强了特效展示效果的趣味性。
111.s340、基于至少一个分屏图像、目标音频以及待处理视频帧，确定特效视频帧。
112.在本实施例中，将分屏图像、目标音频以及待处理视频帧进行整体的叠加，得到既
有音频特效又有图像特效的视频帧，随后可以基于多个视频帧进行拼合，生成一个可以展示合唱效果的特效视频帧。
113.本公开实施例的技术方案，在对音频进行特效处理的基础上，基于目标对象，可以确定目标对象所对应的多个分屏图像，进而将分屏图像、目标音频以及待处理视频帧进行整体的叠加，得到既有音频特效又有图像特效的特效视频帧。即除了对音频进行特效处理，还对至少一个目标对象对应的图像进行特效处理，实现对音频以及图像进行同步处理，以提高特效画面的显示内容，使得特效展示效果体现出现场合唱的情景，提高了画面内容的丰富度。
114.图12为本公开实施例所提供的一种生成特效视频的方法的流程示意图，在前述实施例的基础上，在特效展示界面中显示3d话筒，且可以实时对准目标对象，营造逼真的现场氛围，其具体的实施方式可以参见本实施例技术方案。其中，与上述实施例相同或者相应的技术术语在此不再赘述。如图12所示，该方法具体包括如下步骤：
115.s410、当检测到满足混音条件时，确定待处理视频帧中至少一个目标对象所对应的至少一个混音音频。
116.s420、基于至少一个混音音频以及至少一个目标对象的音频信息，确定待处理视频帧的目标音频。
117.s430、基于目标音频和至少一个目标对象，确定与待处理视频帧相对应的特效视频帧。
118.s440、在特效视频帧中显示3d话筒。
119.在本实施例中，从至少一个目标对象中确定一个与3d话筒相对应的对准对象，根据对准对象的位置信息调整特效视频帧中3d话筒的显示位置，示例性的，3d话筒在特效视频帧中的位置，参见图13。这样设置的好处在于：在特效展示页面中显示3d话筒，使得特效展示效果更加逼真，增强了特效展示效果的丰富性。
120.可选的，在特效视频帧中显示3d话筒具体可以包括以下步骤：从至少一个目标对象中确定与3d话筒相对应的对准对象；根据对准对象的目标位置信息，调整3d话筒在特效视频帧中的话筒显示位置；其中，话筒显示位置包括话筒偏转角度和/或话筒于特效视频帧中的显示高度。这样设置的好处在于：话筒的显示位置可以根据目标对象的位移进行调整，提高了话筒与对准对象之间的匹配度，从而增强了特效展示效果的丰富性和趣味性。
121.在实际应用过程中，确定对准对象的方式可以包括两种，一种是基于图像的深度信息确定对准对象，另一种是基于画面显示比例确定对准对象。
122.基于画面显示比例确定对准对象具体实现方式为：确定视频帧中每个目标对象在画面中的显示比例，可以将显示比例最大的目标对象作为对准对象。基于深度信息确定对准对象可以是：深度信息可以表征摄像头与用户之间的距离，距离摄像头越近的用户，深度信息越小；距离摄像头越远的用户，深度信息越大。确定待处理视频帧中每个目标对象所对应深度图像，随后，计算目标对象人像中每个点所对应的深度值，进而计算各人像点深度值的平均值，最后得到每个目标对象的深度信息，将深度信息最小的目标对象作为对准对象。
123.在本实施例中，待处理视频帧中对准对象于显示界面中的显示位置可以存在一定的变化，例如，有一定的旋转角度等，此时可以根据对准对象的偏转角度适应性的调整3d话筒的显示位置。对准对象的目标位置信息可以是预先设定的定点，例如可以是目标对象的
鼻尖定点。鼻尖定点的具体确定过程为：首先基于面部检测算法实时的追踪鼻尖定点的位置信息，进而根据鼻尖定点的位置信息与预先定义的基准线的偏转角度，适应性的调整3d话筒的偏转角度，以达到3d话筒实时追随对准对象的效果。
124.示例性的，鼻尖定点的位置信息可以用空间坐标点表征，基于空间坐标可以确定鼻尖定点的法线，而基准线对应有一条法线，进而可以计算鼻尖定点的法线与基准线对应法线的夹角，所计算的夹角即为话筒偏转角度。话筒根据偏转角度，调整其显示位置。可选的，偏转角度范围可以固定在[-30
°
，30
°
]之间的。即，可以基于偏转角度范围和实际偏转角度确定话筒的偏转角度。
[0125]
在实际用过程中，目标用户在拍摄视频的过程中，目标用户可能距离摄像头时远时近，此时目标对象在待处理视频帧中的显示位置可能存在上下移动的情形，需要调整3d话筒的相对显示高度。
[0126]
本公开实施例的技术方案，在对音频以及目标对象的图像进行同步特效处理的基础上，还可以在特效视频帧中实时显示3d话筒，并基于目标对象的显示位置信息，调整3d话筒于显示界面中的显示位置，以使3d话筒与目标对象是实时相匹配的，从而达到基于3d话筒采集目标对象音频信息的效果，提升了特效展示效果的逼真性，进一步提升特效展示的趣味性。
[0127]
图14为本公开实施例所提供的一种生成特效视频的装置结构示意图，如图14所示，装置包括：混音音频确定模块510、目标音频确定模块520和特效视频帧确定模块530。
[0128]
混音音频确定模块510，用于当检测到满足混音条件时，确定待处理视频帧中至少一个目标对象所对应的至少一个混音音频；其中，待处理视频帧为实时采集的视频帧或录制视频中的视频帧；
[0129]
目标音频确定模块520，用于基于至少一个混音音频以及至少一个目标对象的音频信息，确定待处理视频帧的目标音频；
[0130]
特效视频帧确定模块530，用于基于目标音频和至少一个目标对象，确定与待处理视频帧相对应的特效视频帧。
[0131]
在上述各技术方案的基础上，混音条件包括下述至少一种：
[0132]
触发于混音特效相对应的特效道具；
[0133]
显示界面中包括至少一个目标对象；
[0134]
触发拍摄控件；
[0135]
检测到基于触发的视频处理控件上传的录制视频。
[0136]
在上述各技术方案的基础上，混音音频确定模块510包括：触发操作确定子模块、对象属性确定子模块和混音音频确定子模块。
[0137]
触发操作确定子模块，用于基于对显示界面上至少一个混音控件的触发操作，确定至少一个混音音频；其中，混音控件对应于相应的待选择混音音频；
[0138]
对象属性确定子模块，用于根据至少一个目标对象的对象属性，确定至少一个混音音频；
[0139]
混音音频确定子模块，用于根据待处理视频帧中的音频信息，确定至少一个混音音频。
[0140]
在上述各技术方案的基础上，对象属性确定子模块包括：面部算法识别单元和属
性类别确定单元。
[0141]
面部算法识别单元，用于基于面部检测算法识别至少一个目标对象的对象属性；
[0142]
属性类别确定单元，用于基于对象属性的属性类别数量和对象属性，，从预先制作的至少一个待选择混音中，确定出与属性类别数量相一致的混音音频。
[0143]
在上述各技术方案的基础上，目标音频确定模块520包括：和声旋律确定子模块和混音音频确定子模块。
[0144]
和声旋律确定子模块，用于根据待处理视频帧中音频信息的伴奏信息和和声中的目标声部，确定和声旋律；
[0145]
混音音频确定子模块，用于基于和声旋律中的音调信息和音频信息中的音调信息，确定至少一个混音音频。
[0146]
在上述各技术方案的基础上，混音音频确定子模块还用于基于和声旋律中的音调信息、音频信息中的音调信息和至少一个目标对象的对象属性，确定至少一个混音音频。
[0147]
在上述各技术方案的基础上，混音音频包括至少一个声部的和声伴奏或和声伴奏中包括主唱音轨的音频。
[0148]
在上述各技术方案的基础上，目标音频确定模块520还包括：音量信息确定子模块和目标音频确定子模块。
[0149]
音量信息确定子模块，用于根据音频信息所对应的音量信息，确定待展示音频；
[0150]
目标音频确定子模块，用于将至少一个混音音频和待展示音频均作为待处理视频帧的目标音频。
[0151]
在上述各技术方案的基础上，特效视频帧确定模块530包括：分屏图像确定子模块和特效视频帧确定子模块。
[0152]
分屏图像确定子模块，用于确定与至少一个目标对象对应的至少一个分屏图像；
[0153]
特效视频帧确定子模块，用于基于至少一个分屏图像、目标音频以及待处理视频帧，确定特效视频帧。
[0154]
在上述各技术方案的基础上，分屏图像中包括至少一个目标对象，或，每个分屏图像中包括一个目标对象。
[0155]
在上述各技术方案的基础上，装置还包括：分割图像确定模块和特效视频更新模块。
[0156]
分割图像确定模块，用于对至少一个目标对象分割处理，确定对象分割图像；
[0157]
特效视频更新模块，用于将至少一个目标对象作为待处理视频帧的中心，并按照预设缩放比例在中心两侧堆叠显示对象分割图像，以更新特效视频帧。
[0158]
在上述各技术方案的基础上，装置还包括：话筒显示模块，用于在特效视频帧中显示3d话筒。
[0159]
在上述各技术方案的基础上，话筒显示模块还包括：对准对象确定子模块和话筒位置调整子模块。
[0160]
对准对象确定子模块，用于从至少一个目标对象中确定与3d话筒相对应的对准对象；
[0161]
话筒位置调整子模块，用于根据对准对象的目标位置信息，调整3d话筒在特效视频帧中的话筒显示位置；
[0162]
其中，话筒显示位置包括话筒偏转角度和/或话筒于特效视频帧中的显示高度。
[0163]
本公开实施例的技术方案，当检测到满足混音条件时，可以确定待处理视频帧中至少一个目标对象所对应的至少一个混音音频，进而基于所确定的混音音频以及至少一个目标对象的音频信息，可以确定多个音轨所对应的目标音频，通过对目标音频和目标对象进行融合处理，可以得到最终的特效视频帧。实现了不仅可以对画面内容进行处理，还可以对音频内容进行处理的技术效果，提升了特效展示效果的丰富性、趣味性，还进一步提升了目标用户使用体验的技术效果。
[0164]
本公开实施例所提供的生成特效视频装置可执行本公开任意实施例所提供的生成特效视频的方法，具备执行方法相应的功能模块和有益效果。
[0165]
值得注意的是，上述装置所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本公开实施例的保护范围。
[0166]
图15为本公开实施例所提供的一种电子设备的结构示意图。下面参考图15，其示出了适于用来实现本公开实施例的电子设备(例如图15中的终端设备或服务器)600的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。图15示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。
[0167]
如图15所示，电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601，其可以根据存储在只读存储器(rom)602中的程序或者从存储装置608加载到随机访问存储器(ram)603中的程序而执行各种适当的动作和处理。在ram 603中，还存储有电子设备600操作所需的各种程序和数据。处理装置601、rom 602以及ram 603通过总线604彼此相连。编辑/输出(i/o)接口605也连接至总线604。
[0168]
通常，以下装置可以连接至i/o接口605：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606；包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置607；包括例如磁带、硬盘等的存储装置608；以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图15示出了具有各种装置的电子设备600，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
[0169]
特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置609从网络上被下载和安装，或者从存储装置608被安装，或者从rom 602被安装。在该计算机程序被处理装置601执行时，执行本公开实施例的方法中限定的上述功能。
[0170]
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。
[0171]
本公开实施例提供的电子设备与上述实施例提供的视频确定方法属于同一发明构思，未在本实施例中详尽描述的技术细节可参见上述实施例，并且本实施例与上述实施
例具有相同的有益效果。
[0172]
本公开实施例提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述实施例所提供的生成特效视频的方法。
[0173]
需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、rf(射频)等等，或者上述的任意合适的组合。
[0174]
在一些实施方式中，客户端、服务器可以利用诸如http(hypertext transfer protocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“lan”)，广域网(“wan”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。
[0175]
上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。
[0176]
上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：
[0177]
当检测到满足混音条件时，确定待处理视频帧中至少一个目标对象所对应的至少一个混音音频；其中，待处理视频帧为实时采集的视频帧或录制视频中的视频帧；
[0178]
基于至少一个混音音频以及至少一个目标对象的音频信息，确定待处理视频帧的目标音频；
[0179]
基于目标音频和至少一个目标对象，确定与待处理视频帧相对应的特效视频帧。
[0180]
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如java、smalltalk、c++，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利
用因特网服务提供商来通过因特网连接)。
[0181]
附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0182]
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定，例如，第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。
[0183]
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)等等。
[0184]
在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0185]
根据本公开的一个或多个实施例，【示例一】提供了一种生成特效视频的方法，该方法包括：
[0186]
当检测到满足混音条件时，确定待处理视频帧中至少一个目标对象所对应的至少一个混音音频；其中，待处理视频帧为实时采集的视频帧或录制视频中的视频帧；
[0187]
基于至少一个混音音频以及至少一个目标对象的音频信息，确定待处理视频帧的目标音频；
[0188]
基于目标音频和至少一个目标对象，确定与待处理视频帧相对应的特效视频帧。
[0189]
根据本公开的一个或多个实施例，【示例二】提供了一种生成特效视频的方法，该方法，还包括：
[0190]
可选的，基于对显示界面上至少一个混音控件的触发操作，确定至少一个混音音频；其中，混音控件对应于相应的待选择混音音频；
[0191]
根据至少一个目标对象的对象属性，确定至少一个混音音频；
[0192]
根据待处理视频帧中的音频信息，确定至少一个混音音频。
[0193]
根据本公开的一个或多个实施例，【示例三】提供了一种生成特效视频的方法，该
方法，还包括：
[0194]
可选的，基于面部检测算法识别至少一个目标对象的对象属性；
[0195]
基于对象属性的属性类别数量和对象属性，，从预先制作的至少一个待选择混音中，确定出与属性类别数量相一致的混音音频。
[0196]
根据本公开的一个或多个实施例，【示例四】提供了一种生成特效视频的方法，该方法，还包括：
[0197]
可选的，根据待处理视频帧中音频信息的伴奏信息和和声中的目标声部，确定和声旋律；
[0198]
基于和声旋律中的音调信息和音频信息中的音调信息，确定至少一个混音音频。
[0199]
根据本公开的一个或多个实施例，【示例五】提供了一种生成特效视频的方法，该方法，还包括：
[0200]
可选的，基于和声旋律中的音调信息、音频信息中的音调信息和至少一个目标对象的对象属性，确定至少一个混音音频。
[0201]
根据本公开的一个或多个实施例，【示例六】提供了一种生成特效视频的方法，该方法，还包括：
[0202]
可选的，混音音频包括至少一个声部的和声伴奏或和声伴奏中包括主唱音轨的音频。
[0203]
根据本公开的一个或多个实施例，【示例七】提供了一种生成特效视频的方法，该方法，还包括：
[0204]
可选的，根据音频信息所对应的音量信息，确定待展示音频；
[0205]
将至少一个混音音频和待展示音频均作为待处理视频帧的目标音频。
[0206]
根据本公开的一个或多个实施例，【示例八】提供了一种生成特效视频的方法，该方法，还包括：
[0207]
可选的，确定与至少一个目标对象性对应的至少一个分屏图像；
[0208]
基于至少一个分屏图像、目标音频以及待处理视频帧，确定特效视频帧。
[0209]
根据本公开的一个或多个实施例，【示例九】提供了一种生成特效视频的方法，该方法，还包括：
[0210]
可选的，分屏图像中包括至少一个目标对象，或，每个分屏图像中包括一个目标对象。
[0211]
根据本公开的一个或多个实施例，【示例十】提供了一种生成特效视频的方法，该方法，还包括：
[0212]
可选的，对至少一个目标对象分割处理，确定对象分割图像；
[0213]
将至少一个目标对象作为待处理视频帧的中心，并按照预设缩放比例在中心两侧堆叠显示对象分割图像，以更新特效视频帧。
[0214]
根据本公开的一个或多个实施例，【示例十一】提供了一种生成特效视频的方法，该方法，还包括：
[0215]
可选的，在特效视频帧中显示3d话筒。
[0216]
根据本公开的一个或多个实施例，【示例十二】提供了一种生成特效视频的方法，该方法，还包括：
[0217]
可选的，从至少一个目标对象中确定与3d话筒相对应的对准对象；
[0218]
根据对准对象的目标位置信息，调整3d话筒在特效视频帧中的话筒显示位置；
[0219]
其中，话筒显示位置包括话筒偏转角度和/或话筒于特效视频帧中的显示高度。
[0220]
根据本公开的一个或多个实施例，【示例十三】提供了一种生成特效视频的方法，该方法，还包括：
[0221]
可选的，混音条件包括下述至少一种：
[0222]
触发于混音特效相对应的特效道具；
[0223]
显示界面中包括至少一个目标对象；
[0224]
触发拍摄控件；
[0225]
检测到基于触发的视频处理控件上传的录制视频。
[0226]
根据本公开的一个或多个实施例，【示例十四】提供了一种生成特效视频装置，该装置包括：
[0227]
混音音频确定模块，用于当检测到满足混音条件时，确定待处理视频帧中至少一个目标对象所对应的至少一个混音音频；其中，待处理视频帧为实时采集的视频帧或录制视频中的视频帧；
[0228]
目标音频确定模块，用于基于至少一个混音音频以及至少一个目标对象的音频信息，确定待处理视频帧的目标音频；
[0229]
特效视频帧确定模块，用于基于目标音频和至少一个目标对象，确定与待处理视频帧相对应的特效视频帧。
[0230]
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
[0231]
此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
[0232]
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

技术特征：

1.一种生成特效视频的方法，其特征在于，包括：当检测到满足混音条件时，确定待处理视频帧中至少一个目标对象所对应的至少一个混音音频；其中，待处理视频帧为实时采集的视频帧或录制视频中的视频帧；基于至少一个混音音频以及至少一个目标对象的音频信息，确定待处理视频帧的目标音频；基于目标音频和至少一个目标对象，确定与待处理视频帧相对应的特效视频帧。2.根据权利要求1的方法，其特征在于，确定至少一个混音音频包括下述至少一种方式：基于对显示界面上至少一个混音控件的触发操作，确定至少一个混音音频；其中，混音控件对应于相应的待选择混音音频；根据至少一个目标对象的对象属性，确定至少一个混音音频；根据待处理视频帧中的音频信息，确定至少一个混音音频。3.根据权利要求2的方法，其特征在于，根据至少一个目标对象的对象属性，确定至少一个混音音频，包括：基于面部检测算法识别至少一个目标对象的对象属性；基于对象属性的属性类别数量和所述对象属性，从预先制作的至少一个待选择混音音频中，确定出至少一个混音音频。4.根据权利要求2的方法，其特征在于，根据待处理视频帧中的音频信息，确定至少一个混音音频，包括：根据待处理视频帧中音频信息的伴奏信息和和声中的目标声部，确定和声旋律；基于和声旋律中的音调信息和音频信息中的音调信息，确定至少一个混音音频。5.根据权利要求4的方法，其特征在于，基于和声旋律中的音调信息和音频信息中的音调信息，确定至少一个混音音频，包括：基于和声旋律中的音调信息、音频信息中的音调信息和至少一个目标对象的对象属性，确定至少一个混音音频。6.根据权利要求1-5中任一项的方法，其特征在于，混音音频包括至少一个声部的和声伴奏或和声伴奏中包括主唱音轨的音频。7.根据权利要求1的方法，其特征在于，基于至少一个混音音频以及至少一个目标对象的音频信息，确定待处理视频帧中目标音频，包括：根据音频信息所对应的音量信息，确定待展示音频；将至少一个混音音频和待展示音频均作为待处理视频帧的目标音频。8.根据权利要求1的方法，其特征在于，基于目标音频和至少一个目标对象，确定与待处理视频帧相对应的特效视频帧，包括：确定与至少一个目标对象对应的至少一个分屏图像；基于至少一个分屏图像、目标音频以及待处理视频帧，确定特效视频帧。9.根据权利要求8的方法，其特征在于，分屏图像中包括至少一个目标对象，或，每个分屏图像中包括一个目标对象。10.根据权利要求1的方法，其特征在于，还包括：对至少一个目标对象分割处理，确定对象分割图像；
将至少一个目标对象作为待处理视频帧的中心，并按照预设缩放比例在中心两侧堆叠显示对象分割图像，以更新特效视频帧。11.根据权利要求1的方法，其特征在于，还包括：在特效视频帧中显示3d话筒。12.根据权利要求11的方法，其特征在于，还包括：从至少一个目标对象中确定与3d话筒相对应的对准对象；根据对准对象的目标位置信息，调整3d话筒在特效视频帧中的话筒显示位置；其中，话筒显示位置包括话筒偏转角度和/或话筒于特效视频帧中的显示高度。13.根据权利要求1的方法，其特征在于，混音条件包括下述至少一种：触发于混音特效相对应的特效道具；显示界面中包括至少一个目标对象；触发拍摄控件；检测到基于触发的视频处理控件上传的录制视频。14.一种生成特效视频的装置，其特征在于，包括：混音音频确定模块，用于当检测到满足混音条件时，确定待处理视频帧中至少一个目标对象所对应的至少一个混音音频；其中，待处理视频帧为实时采集的视频帧或录制视频中的视频帧；目标音频确定模块，用于基于至少一个混音音频以及至少一个目标对象的音频信息，确定待处理视频帧的目标音频；特效视频帧确定模块，用于基于目标音频和至少一个目标对象，确定与待处理视频帧相对应的特效视频帧。15.一种电子设备，其特征在于，所述电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-13中任一所述的生成特效视频的方法。16.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-13中任一所述的生成特效视频的方法。

技术总结

本公开实施例提供了一种生成特效视频的方法、装置、电子设备及存储介质，该方法包括：当检测到满足混音条件时，确定待处理视频帧中至少一个目标对象所对应的至少一个混音音频；基于至少一个混音音频以及至少一个目标对象的音频信息，确定待处理视频帧的目标音频；基于目标音频和至少一个目标对象，确定与待处理视频帧相对应的特效视频帧，提高了特效展示效果的丰富性，进而提高了用户的使用体验。进而提高了用户的使用体验。进而提高了用户的使用体验。