脸部图像处理方法及电子设备与流程

更新时间:2025-12-22 00:11:37 0条评论

默认

脸部图像处理方法及电子设备与流程

1.本技术涉及图像处理技术领域，特别是涉及脸部图像处理方法及电子设备。

背景技术：

2.在直播、短视频、图文场景、数字人等领域中，脸部的表现形式始终占据着重要作用；脸部风格化不仅能实现氛围营造、提高观感等场景功能，也具有脸部隐私保护、增添乐趣、ip风格宣传等作用。所谓脸部风格化，就是把现实中采集到的真实脸部图像变成某种风格的脸部图像，比如，迪士尼漫画风格的脸部图像，同时，转换后的脸部图像中还可以同时保留真实脸部的标志性属性特征。
3.在实现脸部风格化的过程中，需要预先训练算法模型，使得算法模型学习到从真实脸部图像映射到某种风格脸部图像过程中的图像处理方式，从而将一个真实脸部图像输入到这种算法模型之后，该算法模型可以输出该风格的脸部图像。
4.现有技术中，在训练脸部风格化的算法模型时，需要采集成对的训练样本，也即，真实脸部图像，以及与该真实脸部图像对应的风格化脸部图像。而这种与真实脸部图像对应的风格化脸部图像在现实中是不存在的，因此，往往需要大量专业领域的设计师，针对真实脸部图像，进行长周期的风格设计、风格化脸部图像的绘制及反复修改，然后再用得到的与真实脸部图像对应的风格化脸部图像，进行算法模型的训练。这种模式不仅使得每一种风格化算法模型的生产需要投入大量人工及时间成本，也难以跟上瞬息万变的互联网世界。

技术实现要素：

5.本技术提供了脸部图像处理方法及电子设备，能够以较低成本实现在移动端的实时脸部风格化处理。
6.本技术提供了如下方案：
7.一种脸部图像处理方法，包括：
8.获取具有目标风格的多个风格化脸部图像组成的第一数据集，以及多个真实脸部图像组成的第二数据集，其中，第一数据集中的风格化脸部图像与第二数据集中的真实脸部图像之间无配对关系；
9.将所述第一数据集以及第二数据集作为训练样本，通过无监督学习方式对第一算法模型进行训练，以便通过所述第一算法模型得到具有配对关系的真实脸部图像与风格化脸部图像组成的第三数据集；
10.将所述第三数据集作为训练样本，通过有监督学习方式对第二算法模型进行训练，以便将所述第二算法模型分发到客户端所在的终端设备，所述客户端用于通过所述第二算法模型将终端设备采集到的真实脸部图像转换为所述目标风格的风格化脸部图像。
11.其中，所述获取具有目标风格的多个风格化脸部图像组成的第一数据集，包括：
12.收集关于所述目标风格的第一数量的风格化脸部图像原始素材；
13.利用所述原始素材对第三算法模型进行训练；
14.根据训练得到的第三算法模型获得第二数量的风格化脸部图像，以组成所述第一数据集；
15.其中，所述第一数量小于所述第二数量。
16.其中，还包括：
17.利用多个真实脸部图像对所述第三算法模型进行预训练；
18.所述利用所述原始素材对第三算法模型进行训练，包括：
19.利用所述原始素材，在所述预训练完成的第三算法模型基础上进行二次训练。
20.其中，还包括：
21.在进行所述二次训练之前，将所述第三算法模型中通过所述预训练获得的部分参数的数值固定，所述部分参数为：真实脸部图像与风格化脸部图像之间的共同特征相关的参数。
22.其中，还包括：
23.通过将预训练结果与二次训练结果进行参数值融合，以通过对二次训练得到的参数值进行误差校正；
24.所述根据训练得到的第三算法模型获得第二数量的风格化脸部图像，包括：
25.根据参数值融合后的第三算法模型获得第二数量的风格化脸部图像。
26.其中，还包括：
27.在预训练完成的所述第三算法模型的基础上，对用于生成随机向量的第四算法模型进行训练；
28.在根据二次训练得到的第三算法模型获得第二数量的风格化脸部图像时，通过所述第四算法模型生成随机向量，并作为所述第三算法模型的输入，以控制所述第三算法模型输出的风格化脸部图像的分布。
29.其中，所述获取具有目标风格的多个风格化脸部图像组成的第一数据集，包括：
30.分别收集关于至少两种风格的风格化脸部图像原始素材；
31.分别利用所述至少两种风格对应的原始素材对第三算法模型进行训练，得到分别与所述至少两种风格对应的至少两组参数值；
32.通过将所述至少两组参数值进行融合，得到融合后的参数值；
33.根据所述第三算法模型以及所述融合后的参数值，获得具有所述目标风格的多个风格化脸部图像。
34.其中，所述第一算法模型中包括生成网络部分以及判别网络部分；
35.所述方法还包括：
36.在所述生成网络部分增加关于背景区域的平均误差l1损失项，忽略背景区域的对抗损失项，并在所述判别网络部分去掉涉及到对全图进行判别的分支，以便在将真实脸部图像转换为风格化脸部图像的过程中，避免背景区域的图像被进行风格化处理。
37.其中，所述第二算法模型的像素损失函数中包括对抗损失以及感知函数。
38.其中，还包括：
39.对所述第三数据集中的风格化脸部图像进行边缘识别，并对边缘部分进行模糊处理；
40.所述将所述第三数据集作为训练样本，通过有监督学习方式对第二算法模型进行训练，包括：
41.将所述第三数据集以及所述对边缘部分进行了模糊处理的风格化脸部图像作为训练样本，通过有监督学习方式对第二算法模型进行训练，并在所述第二算法模型中提供边缘提升对抗损失，以便通过所述第二算法模型生成的风格化脸部图像获得边缘提升。
42.其中，所述第二算法模型中包括判别网络，所述判别网络具有全局判别能力、局部判别能力以及注意力机制。
43.其中，还包括：
44.对所述第三数据集中的脸部图像进行数据增强处理，所述数据增强处理包括随机裁剪，随机缩放，或随机光学失真处理。
45.其中，所述客户端包括商品信息服务系统提供的客户端；
46.所述客户端用于：
47.接收到用户针对目标商品进行直播或者拍摄短视频/照片的请求后，提供风格化处理选项；
48.响应于通过所述风格化处理选项发起的请求，确定目标风格，并从终端设备采集到的原始图像中截取出真实脸部图像；
49.通过所述目标风格对应的第二算法模型将真实脸部图像转换为所述目标风格的风格化脸部图像，并将所述风格化脸部图像贴回到所述原始图像中。
50.一种脸部图像处理装置，包括：
51.数据生成单元，用于获取具有目标风格的多个风格化脸部图像组成的第一数据集，以及多个真实脸部图像组成的第二数据集，其中，第一数据集中的风格化脸部图像与第二数据集中的真实脸部图像之间无配对关系；
52.无监督学习单元，用于将所述第一数据集以及第二数据集作为训练样本，通过无监督学习方式对第一算法模型进行训练，以便通过所述第一算法模型得到具有配对关系的真实脸部图像与风格化脸部图像组成的第三数据集；
53.有监督学习单元，用于将所述第三数据集作为训练样本，通过有监督学习方式对第二算法模型进行训练，以便将所述第二算法模型分发到客户端所在的终端设备，所述客户端用于通过所述第二算法模型将终端设备采集到的真实脸部图像转换为所述目标风格的风格化脸部图像。
54.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一项所述的方法的步骤。
55.一种电子设备，包括：
56.一个或多个处理器；以及
57.与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行前述任一项所述的方法的步骤。
58.根据本技术提供的具体实施例，本技术公开了以下技术效果：
59.通过本技术实施例，可以将风格化处理模型的生成过程分为多个阶段，在第一阶段，可以获取具有目标风格的多个风格化脸部图像组成的第一数据集，以及多个真实脸部图像组成的第二数据集，第一数据集中的风格化脸部图像与第二数据集中的真实脸部图像
之间可以不必具有配对关系。之后，在第二阶段，可以将所述第一数据集以及第二数据集作为训练样本，通过无监督学习方式对第一算法模型进行训练，以便通过所述第一算法模型得到具有配对关系的真实脸部图像与风格化脸部图像组成的第三数据集。在第三阶段，则可以将所述第三数据集作为训练样本，通过有监督学习方式对第二算法模型进行训练，进而可以将所述第二算法模型分发到客户端所在的终端设备，以便所述客户端利用所述第二算法模型将采集到的真实脸部图像转换为所述目标风格的风格化脸部图像。通过这种方式，可以实现风格化数据生产、配对图像数据制作、移动端图像翻译三个任务的解耦。并且，不需要通过设计师、专家等针对真实脸部图像进行配对的风格化脸部图像设计，即可以更低的成本完成对第二算法模型的训练，以使其能够在输入一个真实脸部图像的情况下，对应输出具有某种风格的风格化脸部图像；并且由于可以通过有监督的方式实现的对第二算法模型的训练，因此，可以实现对运算量的控制，使其能够实现在客户端运行，以便在客户端实现实时的风格化处理。
60.其中，在可选的实施方式下，还可以对各阶段内算法、阶段间的算法或数据进行优化改进。例如，在第一阶段通过使用真实脸部数据对算法模型的预训练，固定部分参数等，以降低对风格化脸部图像原始素材的数量的需求，用极少量的风格化脸部图像原始素材即可训练第三模型以生成大量风格化脸部数据。还可以通过不同风格的参数融合等方式，实现风格创新。在第二阶段，可以通过生成网络部分增加关于背景区域的平均误差l1损失项，忽略背景区域的对抗损失项，并在判别网络部分去掉涉及到对全图进行判别的分支等方式，实现风格化过程中的背景图像固定，避免由于背景区域的图像被风格化处理而导致的背景模糊等情况。在第三阶段，可以通过增加损失及感知函数，通过在训练数据中增加边缘模糊处理后的风格化脸部图像，使得通过所述第二算法模型生成的风格化脸部图像获得边缘提升；还可以通过对第三数据集中脸部图像进行数据增强处理，提升算法模型的鲁棒性，等等。
61.当然，实施本技术的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
62.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
63.图1是本技术实施例提供的系统架构的示意图；
64.图2是本技术实施例提供的方法的流程图；
65.图3是本技术实施例提供的装置的示意图；
66.图4是本技术实施例提供的电子设备的示意图。
具体实施方式
67.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本技术保护的
范围。
68.为了便于理解本技术实施例提供的具体实现方案，首先需要说明的是，在实际的应用场景中，通常是用户通过具体应用客户端进行直播或者拍摄短视频等过程中，发起脸部风格化处理的请求，此时，需要对实际采集到的真实脸部图像进行识别、扣取，并进行风格化处理后，将得到的风格化脸部图像贴回到图像采集界面中。在此过程中，为了更好的支持实时性，通常需要由客户端来完成具体的处理过程。也就是说，服务端需要将具体的风格化算法模型下发到客户端，由客户端在终端设备本地运行具体的算法模型，并生成风格化脸部图像，等等。而具体的终端设备通常是以手机等移动终端为主，因此，算法模型运行过程中的运算量不能过大，否则移动终端的性能可能无法支持。
69.因此，本技术实施例的改进目标，不仅要降低风格化算法模型的生产成本，还要同时满足在移动端实时进行脸部风格化处理的需求。为此，本技术实施例提供的方案中，将风格化算法模型的训练过程分成了三个阶段，其中：
70.第一阶段用来生产多个风格化脸部图像，并收集多个真实脸部图像，当然，在本技术实施例中，具体生产出的风格化脸部图像不需要与具体的真实脸部图像对应，也就是说，虽然也涉及到风格化脸部图像以及真实脸部图像这样两个域的图像获取，但是两者不需要具有配对关系。也正是因为风格化脸部图像不需要与真实脸部图像具有配对关系，风格化脸部图像的生产不需要由设计师等进行设计，而是可以通过算法模型的方式来生成。
71.第二阶段可以根据上述不存在配对关系的风格化脸部图像以及真实脸部图像，对第一算法模型进行训练，以使得第一算法模型从这些数据中学习到从真实脸部图像转换到所述目标风格的风格化脸部图像的第一映射关系，从而可以在输入一个真实脸部图像的情况下，可以输出与该真实脸部图像具有配对关系的风格化脸部图像数据。当然，由于作为训练数据的风格化脸部图像与真实脸部图像之间不具有配对关系，使得第一算法模型的学习过程属于无监督学习，相应的，对算法的算子、深度、宽度、分辨率等都具有比较高的要求，因此，虽然该第一算法模型已经能够根据输入的真实脸部图像，输出具有目标风格的风格化脸部图像，但是，这种第一算法模型由于计算量过高，通常难以在移动端运行。为此，本技术实施例还提供了第三阶段。
72.第三阶段可以利用第二阶段训练得到的第一算法模型，将多个真实脸部图像转换为风格化脸部图像，这样可以得到具有配对关系的真实脸部图像与风格化脸部图像组成的数据集，并用该数据集中成对的真实脸部图像与风格化脸部图像，对第二算法模型进行训练，使得该第二算法模型也可以将真实脸部图像转换为风格化脸部图像。此时，该第二算法模型可以是通过有监督的模型，因此，相对于第一算法模型而言，其运行时候的计算量会比较低，更适合在移动端运行。
73.其中，在具体的各个阶段，都可以涉及到在已有的算法模型基础上，使用适用本技术实施例应用场景的训练数据，对模型进行训练。另外，在具体实现时，还可以根据具体的应用场景特点，对已有的算法模型进行一些优化或者改进，以提升算法输出的图像的效果。对于这些具体的优化或者改进点，在后文中会有详细介绍。
74.从系统架构角度而言，参见图1，本技术实施例可以涉及到相关应用的客户端及服务端，其中，服务端主要可以用于生成具体的风格化算法模型，也即，上述三个阶段都可以在服务端来完成，在得到上述第二算法模型之后，可以下发到客户端，从而使得客户端可以
根据具体的算法模型，在终端设备本地完成对真实脸部图像转换为风格化脸部图像的处理过程。
75.下面对本技术实施例提供的具体实现方案进行详细介绍。
76.首先，该实施例从前述服务端的角度，提供了一种脸部图像处理方法，参见图2，该方法具体可以包括：
77.s201：获取具有目标风格的多个风格化脸部图像组成的第一数据集，以及多个真实脸部图像组成的第二数据集，其中，第一数据集中的风格化脸部图像与第二数据集中的真实脸部图像之间无配对关系。
78.该步骤s201也即前述第一阶段。具体的，可以首先确定具体需要的目标风格，例如，某系列动画脸部风格等等，然后，可以获取具有目标风格的多个风格化脸部图像组成的第一数据集，以及多个真实脸部图像组成的第二数据集。其中，由于第一数据集中的风格化脸部图像与第二数据集中的真实脸部图像之间不需要具有配对关系，也即，具体的风格化脸部数据不需要具有某个真实的脸部图像的特征。因此，这种风格化脸部数据是可以通过从一些相关图片库、等进行收集的方式获得的。
79.当然，收集到的风格化脸部图像用于对具体的模型进行训练，因此，通常需要的风格化脸部图像的数量会比较多(例如，通常至少需要上千张)，但是，实际能够收集到的同一种风格的风格化脸部图像数量可能会比较少，例如，可能只有几十张，等等。因此，在可选的实施方式下，针对收集到的风格化脸部图像数量比较少的情况，还可以通过具体的算法模型(为了与后续的算法模型进行区分，可以称为第三算法模型)来生成这种风格化脸部图像。
80.具体的，可以将收集到的第一数量的风格化脸部图像作为训练样本，对上述第三算法模型进行训练。其中，具体在收集这种风格化脸部图像时，可以对数据分布进行优化调整，例如，具体的训练样本中最好包含多种不同的角度(正面、侧脸、仰脸等)，戴眼镜与否等多种不同脸部特征。例如，通过从进行收集等方式，获取到某目标风格的风格化脸部图像有100张，则可以对这100张原始素材进行数据分布优化调整，使得各种脸部特征的图像平均分布，等等。利用这种原始素材对第三算法模型进行训练后，可以根据训练得到的第三算法模型获得第二数量的风格化脸部图像，以组成所述第一数据集。其中，所述第一数量小于所述第二数量。也就是说，原始素材的数量可以比较少，但是在对第三算法模型训练完成后，可以通过该第三算法模型获取到更多的关于某种风格的风格化脸部图像。
81.其中，具体的第三算法模型可以采用生成判别对抗网络模型(例如，style gan等)来实现，这种生成判别对抗网络模型包括生成网络模型部分，以及判别网络模型部分。其中，生成网络模型部分可以以任意数据(例如，长度为n的随机的向量等)作为输入，目标是输出风格化脸部图像，当然，在训练初期，生成网络模型的输出还不能真正具有所需要的风格，判别网络模型部分就用于对生成网络模型部分输出的图像与样本中真正的风格化脸部图像进行对比，如果两者不够接近，则通知生成网络模型部分继续进行学习并修改参数值。经过多轮的迭代后，生成网络模型部分输出的图像与样本中真正的风格化脸部图像足够接近后，可以停止训练。之后，可以通过其中的生成网络模型部分以及对应的参数值，进行风格化脸部图像的生成。也即，向这种生成网络模型部分输入随机向量，即可输出具有目标风格的风格化脸部图像。
82.由于同一风格下收集到的风格化脸部数据的原始素材数量可能会比较少，因此，为了在较少训练样本的情况下，保证对第三算法模型的训练效果，在可选的实施方式下，可以在利用这种原始素材对第三算法模型进行训练之后，首先利用多个真实脸部图像对所述第三算法模型进行预训练，然后，可以利用风格化脸部图像的原始素材，在所述预训练完成的第三算法模型基础上进行二次训练。
83.其中，预训练的目标就是，为第三算法模型获取到一组参数值，使得第三算法模型在这组参数值的条件下，能够根据输入的随机向量，输出真实脸部图像。由于真实脸部图像的数量可以收集到很多，全都可以作为预训练的样本，因此，可以获得理想的预训练效果。另外，由于已经获取到一组参数值，因此，可以在这组参数值的基础上，使用风格化脸部图像的原始素材为训练样本，再对该第三算法模型进行二次训练，这样可以减少训练过程中的迭代次数，降低对风格化训练样本数量的需求。
84.由于风格化脸部图像与真实脸部图像之间还会具有一些共同特征，例如，脸部轮廓等，因此，在可选的方式下，在预训练完成之后，进行所述二次训练之前，还可以将第三算法模型中通过预训练获得的部分参数的数值固定，其中，这里所述的部分参数可以为：真实脸部图像与风格化脸部图像之间的共同特征相关的参数。也就是说，通过分析对比等，可以发现哪些参数是影响脸部轮廓等特征的，就可以将这些参数的参数值固定下来，这样，在二次训练过程中，只需要学习其他参数的参数值即可，因此，也可以减少迭代次数，以及对训练样本数量的需求。
85.另外，由于收集到的风格化脸部图像的原始素材中，通常是画出来的，并且不需要与真实脸部图像对应，因此，有些特征可能表现地不够明显，例如，大部分的风格化脸部图像中可能都不包括牙齿，这样，在利用真实脸部图像进行预训练，再利用风格化脸部图像作为训练数据进行二次训练的过程中，当涉及到与牙齿相关的特征时，模型可能会无法正确学习到关于牙齿特征的处理方式。因此，在优选的方式下，还可以通过将预训练结果与二次训练结果进行参数值融合的方式，实现对二次训练得到的参数值进行误差校正，进而，后续可以根据参数值融合后的第三算法模型获得第二数量的风格化脸部图像。其中，在进行参数融合时，就是将预训练后得到的一组参数值，与二次训练后得到的一组参数值进行融合，例如，将同一参数在两组参数值中对应的数值进行平均，或者加权平均处理，等等。在进行加权平均的情况下，关于具体权值的选择，可以通过反复试验等方式来进行确定。
86.再者，由于在生成对抗网络模型中，生成网络部分的输入是随机向量，因此，如果完全采用随机的方式进行向量输入，则可能无法控制输出的脸部图像的分布。为此，在可选的实现方式下，可以使用gan inversion等技术，实现对风格化脸部数据生成的分布控制。具体的，可以根据e4e(encoder 4editing)等算法，训练一个编码网络，该编码网络可以是用于生成随机向量的第四算法模型，也可以通过训练的方式获得。例如，具体实现时，可以在训练好的第三算法模型上，对用于生成随机向量的第四算法模型进行训练。也即，输入真实脸部图像到该第四算法模型(也即编码网络)可以得到隐空间编码，将该编码输入到预训练好的style gan生成器以得到与输入的真实脸部图像基本一致的输出图。这样，可以在预训练好的第三算法模型的基础上，完成对该第四算法模型的训练。进而，在根据训练得到的第三算法模型获得第二数量的风格化脸部图像时，可以通过改第四算法模型生成随机向量，并作为所述第三算法模型的输入，以控制所述第三算法模型输出的风格化脸部图像的
分布。
87.在上述通过第三算法模型生成风格化脸部图像的情况下，还可以通过将多种不同风格进行融合的方式进行风格创新，从而可以支持更多风格的风格化脸部图像的生成。例如，现实中可能收集到20种风格的脸部图像原始素材，通过这20种风格的原始素材分别对第三算法模型进行训练，可以得到20组参数值，而通过将这20组参数值进行两两融合，或者，多组参数值融合到一起，则可以得到更多的组合风格，也即，参数融合后的第三算法模型可以用于生产出这种组合风格的风格化脸部图像，进而后续可以实现从真实脸部图像到这种组合风格的风格化脸部图像的转换。例如，某风格a是迪士尼风格，风格b是儿童相关的风格，则在将风格a与风格b分别对应的参数值进行融合后，具体的第三算法模型利用这种融合后的参数值，可以生产出“儿童迪士尼”风格的风格化脸部图像，后续在进行脸部风格化处理的过程中，不仅可以提供“迪士尼风格”，“儿童风格”，还可以提供“儿童迪士尼风格”，等等。
88.也就是说，在上述方式下，可以分别收集关于至少两种风格的风格化脸部图像原始素材，然后，分别利用所述至少两种风格对应的原始素材对第三算法模型进行训练，得到分别与所述至少两种风格对应的至少两组参数值。通过将所述至少两组参数值进行融合，可以得到融合后的参数值，之后，可以根据所述第三算法模型以及所述融合后的参数值，获得具有所述目标风格的多个风格化脸部图像。
89.需要说明的是，在上述通过将两种或多种不同风格进行融合进行风格创新的过程中，关于具体的参数融合方式，也可以包括将对应参数上的参数值的平均、加权平均等多种融合方式。关于加权平均过程中具体使用的权重，也可以通过多次反复测试等方式来进行确定，这里不再详述。
90.s202：将所述第一数据集以及第二数据集作为训练样本，通过无监督学习方式对第一算法模型进行训练，以便通过所述第一算法模型得到具有配对关系的真实脸部图像与风格化脸部图像组成的第三数据集。
91.在获得第一数据集以及第二数据集之后，就可以进入到第二阶段，也即，将第一数据集以及第二数据集作为训练样本，对第一算法模型进行训练。其中，由于第一数据集中的风格化脸部图像与第二数据集中的真实脸部图像之间无配对关系，因此，可以通过无监督的方式对第一算法模型进行训练。训练的目标是：使得第一算法模型在无监督方式下学习到从真实脸部图像转换到所述目标风格的风格化脸部图像的映射关系，从而在向第一算法模型中输入某个真实脸部图像的情况下，可以输出具有该目标风格的风格化脸部图像，当然，此时输出的风格化脸部图像与输入的真实脸部图像之间会存在配对关系，也即，输出的风格化脸部图像中会带有输入的真实脸部图像中的部分特征，例如，脸型等(甚至对于该真实脸部图像对应的用户本人，或者比较熟悉该人的用户而言，输出的风格化脸部图像不仅具有目标风格，并且还可以大致判断出这个人是谁)。
92.其中，这种第一算法模型具体可以是u-gat-it(非配对图像翻译)等。但是，在本技术实施例中，考虑到一些场景下可能需要具有背景图像固定的需求，因此，还可以对已有的算法模型的结构等进行一些改进，以适应这种需求。
93.具体的，由于第一算法模型的输入图像以及输出图像通常都是相同尺寸的矩形图像，因此，相当于实际的脸部图像只是输入图像中的部分区域，而其他部分则属于背景图像
(脸部区域不可能是矩形，又要使得输入图像中包括完整的脸部图像，因此，在截取矩形的输入图像的过程中，难免会截取到部分背景图像)。而如果直接对这种矩形的输入图像中的全部像素都进行风格化处理，则会导致背景图像部分也进行了“风格化”处理，而实际上对于背景图像而言，不需要进行“风格化”处理，甚至如果进行了“风格化”处理，会导致背景图像变得模糊、扭曲。而在一些场景中(例如，在拍摄短视频的过程中进行实时的风格化处理，等等)，通过算法模型生成的风格化脸部图像还需要贴回到原图中，此时，就可能会出现风格化脸部图像由于背景图像部分出现模糊等情况，而难以与原图更好地衔接等等，影响最终的视觉效果，因此，在上述场景中，就会具有在风格化处理的过程中，固定背景图像的需求。
94.为了满足该需求，在本技术实施例中可以对现有的生成对抗网络模型进行改进。例如，由于第一算法模型中包括生成网络部分以及判别网络部分，因此，可以在其中的生成网络部分增加关于背景区域的l1(平均误差)损失项，忽略背景区域的对抗损失，约束这个生成网络生成的图像背景与原图相同。同时，由于生成网络生成的图像作为给判别器的输入进行判别，判别的过程中有判别损失项，通常，这种损失项是基于全图做判别，这就使得如果发现生成的背景图像与其他风格化的模式不同，判别器会对生成的背景部分做惩罚，让生成网络生成的图像中的背景部分也更像风格化。因此，在生成网络中增加关于背景区域的l1(平均误差)损失项的同时，还可以在判别网络部分去掉涉及到对全图进行判别的分支，这样，可以使得让判别器不需要对生成网络输出的图像中的背景图像做判别。通过上述方式，可以在将真实脸部图像转换为风格化脸部图像的过程中，避免背景区域的图像被进行风格化处理。
95.总之，在利用第一数据集以及第二数据集对第一算法模型进行训练后，可以通过将真实脸部图像输入到这种第一算法模型，输出具有某种具体风格的风格化脸部图像，并且，第一算法模型的输入图像与输出图像之间具有配对关系。
96.s203：将所述第三数据集作为训练样本，通过有监督学习方式对第二算法模型进行训练，以便将所述第二算法模型分发到客户端所在的终端设备，所述客户端用于通过所述第二算法模型将终端设备采集到的真实脸部图像转换为所述目标风格的风格化脸部图像。
97.在通过第一算法模型得到具有配对关系的真实脸部图像与风格化脸部图像组成的第三数据集后，可以以该第三数据集作为训练样本，对第二算法模型进行训练，训练的目标是，学习到从真实脸部图像转换到目标风格的风格化脸部图像的映射关系，从而使得第二算法模型在输入一张真实脸部图像时，可以获知如何进行处理能够输出具有目标风格的风格化脸部图像。也就是说，训练完成后，向第二算法模型输入一个真实脸部图像时，可以输出具有目标风格的风格化脸部图像。
98.其中，由于训练样本中两个域的图像之间具有配对关系，因此，可以实现对第二算法模型的有监督学习。而这种基于有监督学习的第二算法模型，在算子、模块、深度、宽度、分辨率等方面都可以与第一算法模型不同，并且可以在运算量上得到大幅简化。具体的，可以通过分析算子、模块、深度、宽度、分辨率等在终端设备的中心处理器、图形处理器等上的运行效率等方式，确定出适合的算子、模块、深度、宽度、分辨率，以得到轻量化的第二算法模型，并使其适合在移动端设备上运行。
99.这里需要说明的是，由于不同的移动终端设备在硬件资源配置(包括前述中心处理器、图形处理器等)方面会有不同，运行算法模型的能力也会有所不同，而对于第二算法模型而言，虽然可以选择比第一算法模型更小的模型结构，但是，在移动终端侧能够承受的情况下，如果尽可能增大第二算法模型，则也有利于得到更优的处理效果。因此，在具体实现时，还可以收集多种移动终端设备的机型，分别对各种机型的硬件情况进行分析，并确定各种机型上适合的模型规模，然后可以分别训练出多种不同大小的第二算法模型，然后可以分别将训练完成的第二算法模型下发到对应机型的终端设备上运行。这样，可以在实现端侧模型轻量化的同时，尽量提升脸部风格化处理的效果。当然，各种不同大小的第二算法模型在具体进行训练时，使用的训练数据以及训练目标在整体上都可以是一致的，只是在训练数据的数量、迭代次数、最终输出的脸部风格化结果的精度等方面可能会略有不同。
100.总之，在完成对第二算法模型的设计后，可以使用前述第三数据集中具有配对关系的风格化脸部图像以及真实脸部图像对其进行训练。并且，由于在对第一算法模型进行训练时，已经实现了固定背景图像，也即图像中的背景部分不会被进行风格化处理，因此，在使用这种数据作为训练样本时，第二算法模型的处理结果也能够实现固定背景图像。
101.具体的，可以使用u-net等模型作为第二算法模型。但是，如果直接使用已有的u-net等模型，由于一般是对输入与输出图像整体做l1损失，也即，认为每个像素点都是同样重要，并且全部都要趋近于原图，这样会导致整张图更平滑(或模糊)。但是，实际人眼对图像中不同内容的感知不同，例如，人眼对边缘的感知会更明显，相应的，对于非边缘区域，即使不太清晰，人眼的感知可能也不明显；类似的，人眼对前景的感知更明显，背景部分即使虚化模糊一些，人眼的感知也不明显，或者不在意，等等。因此，从人眼的感知角度而言，会存在这种问题。因此，可以在已有模型中的损失函数中增加判别损失和感知损失，提升图像边缘和前景的清晰度，从而获得更好的体验。
102.另外，为了对生成的风格化脸部图像进行边缘(包括脸部边缘，眼镜边缘，鼻子边缘，发饰等饰品的边缘等等)提升，还可以对所述第三数据集中的风格化脸部图像进行边缘识别，并对边缘部分进行模糊处理，得到边缘模糊的风格化脸部图像。这样，在对第二算法模型进行训练时，训练数据可以包括三种，分别是第三数据集中的原始风格化脸部图像，配对的真实脸部图像，以及上述边缘模糊的风格化脸部图像。通过将边缘清晰的风格化脸部图像以及边缘模糊的风格化脸部图像输入给判别器做训练，使得判别器对边缘模糊的图像做惩罚。这样，训练完成的第二算法模型可以实现对输出的风格化脸部图像的边缘提升。
103.另外，第二算法模型中还可以包括判别网络，这种判别网络可以具有全局判别能力、局部判别能力以及注意力机制。其中，全局判别能力是指，针对整张图像做处理，输出一个值，代表这个图像是真的风格化图像还是假的风格化脸部图像，然后用来做损失，让生成的整个图像更倾向于真实的风格化图。局部判别能力是指，生成的图像输入给判别器之后，判别器可以生成一个矩阵网格，每个数值对应原图的一个像素块，例如，包括鼻子附近某个区域的像素块等，并在像素块维度上判断生成的是真实的风格化图像还是假的风格化图像，等等，这种判别能力称为局部判别能力。注意力机制是指，使得算法模型能够选择性地关注一部分信息，同时忽略其他信息，从而更合理地利用有限的计算资源。
104.再者，为了提升第二算法模型的鲁棒性，还可以对所述第三数据集中的脸部图像进行数据增强处理，例如，具体的数据增强处理可以包括随机裁剪，随机缩放，或随机光学
失真处理，等等。其中，随机裁剪是指，将一对配对的脸部图像，实施相同偏移方向、偏移像素点数量的一致性裁剪，例如，都是在x轴方向上，左侧的十个像素点的内容剪掉，从而裁剪出来一个新的图像。对于不同的脸部图像对而言，具体偏移的方向以及偏移量则可以是随机的。随机缩放是指，对第三数据集中具有配对关系的脸部图像进行放大或缩小处理，同一图像对内，使用相同的方式进行处理，而对于不同的图像对，缩放的比例等则可以是随机的。光学失真处理则主要针对第三数据集中的真实脸部图像，可以通过增加一些噪点，或者变亮变暗等，使得真实脸部图像的质量被损坏一些，等等。通过上述方式对第三数据集中的数据进行处理之后，再用于训练第二算法模型，这样，可以使得第二算法模型具有更高的鲁棒性。例如，在使用第二算法模型对实际采集到的真实脸部图像进行实时的风格化处理的过程中，即使实际采集到的真实脸部图像的质量比较差，包括其中存在噪点，或者在比较暗的环境中进行图像采集，使得采集到的真实脸部图像比较暗等，但是通过第二算法模型之后生成的风格化图像仍然能够具有较高的质量。
105.在对第二算法模型训练完成后，服务端可以将这种第二算法模型下发到安装了对应客户端的终端设备。当然，具体实现时，服务端可以针对多种目标风格分别对第二算法模型进行训练，得到多组不同的参数值，因此，可以将多组不同的参数值都下发到客户端所在的终端设备。这样，用户在使用客户端进行直播或者拍摄短视频、照片等操作的过程中，则可以在拍摄界面中提供风格化处理选项，用户选择使用风格化处理功能之后，可以为用户提供多种可选的风格，在用户选择其中一种风格后，则可以在客户端所在的终端设备本地运行上述第二算法模型，相应的，可以从终端设备采集到的图像中截取出真实脸部图像，并利用第二算法模型以及当前选择的风格对应的参数值，生成具有对应风格的风格化脸部图像。然后，可以将风格化脸部图像贴回到终端设备采集的图像中，从而使得拍摄者用户可以在终端设备屏幕中查看到风格化处理后的脸部图像，另外生成的短视频或者在直播中录制的视频中，都可以使用风格化脸部图像对各帧中的真实脸部图像做替换。
106.其中，上述风格化处理可以在多种实际的场景中应用。例如，在商品信息服务系统中，可以提供某种服务，该服务可以面向买家、卖家等多种用户。其中，在面向买家用户时，用户可以基于该服务发表“买家秀”，也即，将从系统中买到的服装等拍摄短视频、照片等并发布，以供其他买家用户查看。其中，在拍摄短视频或者照片时，出于保护用户隐私、增强乐趣等目的，可以在用户触发拍摄后，提供风格化处理选项，此时，就可以在客户端利用本技术实施例提供的算法模型，对进入拍摄画面的真实脸部进行风格化处理。另外，在面对卖家用户时，卖家用户可以拍“卖家秀”，将自己售卖的商品的视频或者照片等进行发布，以让买家用户进行浏览，帮助用户做购买决策。其中，卖家用户在拍摄自己的商品过程中，可能需要真人出镜，此时，通过对其中的真实脸部进行风格化处理，由于风格化处理后的脸部图像通常都是比较美观的，因此，卖家用户可以不需要很漂亮的模特，可以通过风格化处理功能起到美颜和提高观感的作用。另外，对于售卖面向某种特定人的商品的卖家而言，在拍摄短视频或者直播过程中，可以通过风格化处理，使得主播的脸部转换成具有对应人风格的脸部图像，从而起到营造卖场氛围的作用。例如，某卖家用户主要售卖的是童装，但是，在录制讲解视频或者直播时，需要成人主播对商品进行讲解，此时，通过将主播的脸部图像转换成儿童风格的脸部图像，此时，可以使得该脸部图像与当前售卖场景的氛围比较一致，从而起到卖场氛围营造的作用，等等。
107.总之，通过本技术实施例，可以将风格化处理模型的生成过程分为多个阶段，在第一阶段，可以获取具有目标风格的多个风格化脸部图像组成的第一数据集，以及多个真实脸部图像组成的第二数据集，第一数据集中的风格化脸部图像与第二数据集中的真实脸部图像之间可以不必具有配对关系。之后，在第二阶段，可以将所述第一数据集以及第二数据集作为训练样本，通过无监督学习方式对第一算法模型进行训练，以便通过所述第一算法模型得到具有配对关系的真实脸部图像与风格化脸部图像组成的第三数据集。在第三阶段，则可以将所述第三数据集作为训练样本，通过有监督学习方式对第二算法模型进行训练，进而可以将所述第二算法模型分发到客户端所在的终端设备，以便所述客户端利用所述第二算法模型将采集到的真实脸部图像转换为所述目标风格的风格化脸部图像。通过这种方式，可以实现风格化数据生产、配对图像数据制作、移动端图像翻译三个任务的解耦。并且，不需要通过设计师、专家等针对真实脸部图像进行配对的风格化脸部图像设计，即可以更低的成本完成对第二算法模型的训练，以使其能够在输入一个真实脸部图像的情况下，对应输出具有某种风格的风格化脸部图像；并且由于可以通过有监督的方式实现的对第二算法模型的训练，因此，可以实现对运算量的控制，使其能够实现在客户端运行，以便在客户端实现实时的风格化处理。
108.其中，在可选的实施方式下，还可以对各阶段内算法、阶段间的算法或数据进行优化改进。例如，在第一阶段通过使用真实脸部数据对算法模型的预训练，固定部分参数等，以降低对风格化脸部图像原始素材的数量的需求，用极少量的风格化脸部图像原始素材即可训练第三模型以生成大量风格化脸部数据。还可以通过不同风格的参数融合等方式，实现风格创新。在第二阶段，可以通过生成网络部分增加关于背景区域的平均误差l1损失项，忽略背景区域的对抗损失项，并在判别网络部分去掉涉及到对全图进行判别的分支等方式，实现风格化过程中的背景图像固定，避免由于背景区域的图像被风格化处理而导致的背景模糊等情况。在第三阶段，可以通过增加损失及感知函数，通过在训练数据中增加边缘模糊处理后的风格化脸部图像，使得通过所述第二算法模型生成的风格化脸部图像获得边缘提升；还可以通过对第三数据集中脸部图像进行数据增强处理，提升算法模型的鲁棒性，等等。
109.需要说明的是，本技术实施例中可能会涉及到对用户数据的使用，在实际应用中，可以在符合所在国的适用法律法规要求的情况下(例如，用户明确同意，对用户切实通知，等)，在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。
110.与前述方法实施例相对应，本技术实施例还提供了一种脸部图像处理装置，参见图3，该装置可以包括：
111.数据生成单元301，用于获取具有目标风格的多个风格化脸部图像组成的第一数据集，以及多个真实脸部图像组成的第二数据集，其中，第一数据集中的风格化脸部图像与第二数据集中的真实脸部图像之间无配对关系；
112.无监督学习单元302，用于将所述第一数据集以及第二数据集作为训练样本，通过无监督学习方式对第一算法模型进行训练，以便通过所述第一算法模型得到具有配对关系的真实脸部图像与风格化脸部图像组成的第三数据集；
113.有监督学习单元303，用于将所述第三数据集作为训练样本，通过有监督学习方式对第二算法模型进行训练，以便将所述第二算法模型分发到客户端所在的终端设备，所述
客户端用于通过所述第二算法模型将终端设备采集到的真实脸部图像转换为所述目标风格的风格化脸部图像。
114.其中，所述数据生成单元具体可以用于：
115.原始素材收集子单元，用于收集关于所述目标风格的第一数量的风格化脸部图像原始素材；
116.生成模型训练子单元，用于利用所述原始素材对第三算法模型进行训练；
117.风格化脸部图像生成子单元，用于根据训练得到的第三算法模型获得第二数量的风格化脸部图像，以组成所述第一数据集；
118.其中，所述第一数量小于所述第二数量。
119.为了减少第三算法模型对训练数据量的需求，该装置还可以包括：
120.预训练单元，用于利用多个真实脸部图像对所述第三算法模型进行预训练；
121.所述生成模型训练子单元具体可以用于：
122.利用所述原始素材，在所述预训练完成的第三算法模型基础上进行二次训练。
123.另外，在进行所述二次训练之前，还可以将所述第三算法模型中通过所述预训练获得的部分参数的数值固定，所述部分参数为：真实脸部图像与风格化脸部图像之间的共同特征相关的参数。
124.再者，该装置还可以包括：
125.第一参数融合单元，用于通过将预训练结果与二次训练结果进行参数值融合，以通过对二次训练得到的参数值进行误差校正；
126.所述风格化脸部图像生成子单元具体可以用于：
127.根据参数值融合后的第三算法模型获得第二数量的风格化脸部图像。
128.另外，该装置还可以包括：
129.第四算法模型训练单元，用于在预训练完成的所述第三算法模型的基础上，对用于生成随机向量的第四算法模型进行训练；
130.随机向量生成单元，用于在根据二次训练得到的第三算法模型获得第二数量的风格化脸部图像时，通过所述第四算法模型生成随机向量，并作为所述第三算法模型的输入，以控制所述第三算法模型输出的风格化脸部图像的分布。
131.或者，另一种方式下，所述数据生成单元具体可以包括：
132.多风格原始素材收集子单元，用于分别收集关于至少两种风格的风格化脸部图像原始素材；
133.多风格训练子单元，用于分别利用所述至少两种风格对应的原始素材对第三算法模型进行训练，得到分别与所述至少两种风格对应的至少两组参数值；
134.融合子单元，用于通过将所述至少两组参数值进行融合，得到融合后的参数值；
135.生成子单元，用于根据所述第三算法模型以及所述融合后的参数值，获得具有所述目标风格的多个风格化脸部图像。
136.另外，在第二阶段，所述第一算法模型中可以包括生成网络部分以及判别网络部分；其中，还可以在所述生成网络部分增加关于背景区域的平均误差l1损失项，忽略背景区域的对抗损失项，并在所述判别网络部分去掉涉及到对全图进行判别的分支，以便在将真实脸部图像转换为风格化脸部图像的过程中，避免背景区域的图像被进行风格化处理。
137.另外，所述第二算法模型的像素损失函数中还可以包括对抗损失以及感知函数。
138.再者，该装置还可以包括：
139.模糊处理单元，用于对所述第三数据集中的风格化脸部图像进行边缘识别，并对边缘部分进行模糊处理；
140.所述有监督学习单元具体可以用于：
141.将所述第三数据集以及所述对边缘部分进行了模糊处理的风格化脸部图像作为训练样本，通过有监督学习方式对第二算法模型进行训练，并在所述第二算法模型中提供边缘提升对抗损失，以便通过所述第二算法模型生成的风格化脸部图像获得边缘提升。
142.其中，所述第二算法模型中包括判别网络，所述判别网络具有全局判别能力、局部判别能力以及注意力机制。
143.再者，该装置还可以包括：
144.数据增强处理单元，用于对所述第三数据集中的脸部图像进行数据增强处理，所述数据增强处理包括随机裁剪，随机缩放，或随机光学失真处理。
145.其中，所述客户端包括商品信息服务系统提供的客户端；
146.所述客户端用于：
147.接收到用户针对目标商品拍摄短视频/照片的请求后，提供风格化处理选项；
148.响应于通过所述风格化处理选项发起的请求，确定目标风格，并从终端设备采集到的原始图像中截取出真实脸部图像；
149.通过所述目标风格对应的第二算法模型将真实脸部图像转换为所述目标风格的风格化脸部图像，并将所述风格化脸部图像贴回到所述原始图像中。
150.另外，本技术实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。
151.以及一种电子设备，包括：
152.一个或多个处理器；以及
153.与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行前述方法实施例中任一项所述的方法的步骤。
154.其中，图4示例性的展示出了电子设备的架构，具体可以包括处理器410，视频显示适配器411，磁盘驱动器412，输入/输出接口413，网络接口414，以及存储器420。上述处理器410、视频显示适配器411、磁盘驱动器412、输入/输出接口413、网络接口414，与存储器420之间可以通过通信总线430进行通信连接。
155.其中，处理器410可以采用通用的cpu(central processing unit，处理器)、微处理器、应用专用集成电路(application specific integrated circuit，asic)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本技术所提供的技术方案。
156.存储器420可以采用rom(read only memory，只读存储器)、ram(random access memory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器420可以存储用于控制电子设备400运行的操作系统421，用于控制电子设备400的低级别操作的基本输入输出系统(bios)。另外，还可以存储网页浏览器423，数据存储管理系统424，以及脸部图像处理系统425等等。上述脸部图像处理系统425就可以是本技术实施例中具体实现前述各
步骤操作的应用程序。总之，在通过软件或者固件来实现本技术所提供的技术方案时，相关的程序代码保存在存储器420中，并由处理器410来调用执行。
157.输入/输出接口413用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。
158.网络接口414用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信，也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。
159.总线430包括一通路，在设备的各个组件(例如处理器410、视频显示适配器411、磁盘驱动器412、输入/输出接口413、网络接口414，与存储器420)之间传输信息。
160.需要说明的是，尽管上述设备仅示出了处理器410、视频显示适配器411、磁盘驱动器412、输入/输出接口413、网络接口414，存储器420，总线430等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本技术方案所必需的组件，而不必包含图中所示的全部组件。
161.通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例或者实施例的某些部分所述的方法。
162.本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
163.以上对本技术所提供的脸部图像处理方法及电子设备，进行了详细介绍，本文中应用了具体个例对本技术的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本技术的方法及其核心思想；同时，对于本领域的一般技术人员，依据本技术的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本技术的限制。