AI 换脸用来拍电影愿望终于要实现了？迪士尼自研演算法突破高画质百万像素

AI与大数据 11分钟前 0

▼

仔细来看，AI 换脸技术近些年还是成熟不少，整体的脸部贴合度、细节处理都有了明显的提升。近日，Deepfake 领域再一次取得重要突破。据了解，迪士尼公司公布一项最新研究成果，声称其人脸交换技术可达到业内最高水平。

从效果图来看，果然挑不出一点毛病！

（Source：影片截图，下同）

据了解，迪士尼研究室与苏黎世联邦理工学院合作基于 GAN 提出了一种新型演算法，它可以自动实现图像 / 影片中的人脸交换，同时保证数百万级的高解析度。

更值得关注的是，目前这项研究成果已初步计划用于好莱坞大片制作，据说因为它可以改善电影品质和后期制作成本。

走进好莱坞大片的 Deepfake

人脸交换在电影行业并不罕见。在一些好莱坞大片经常会用到替身演员完成一些专业的、高难度动作。为了保证电影效果，后期制作会花费大量成本。然而常见的电脑图形合成技术，效果常常差强人意，甚至会翻新重拍。

这在时间和金钱方面都是非常大的成本消耗，因此，迪士尼公司特此联合苏黎世联邦理工学院展开此项合作研究。

近日，迪士尼公司对外宣称，他们研究了一款新型人脸交换技术，可用于电影或电视剧制作。他们声称该技术可在人脸交换过程中产生高解析度，逼真的图像 / 影片，非常适合大萤幕播放。

局部融合更考验换脸的技术难度。为了验证演算法性能，研究人员他们没有对人脸的眼部、唇部等局部器官进行融合，效果也是非常惊人。

基于图一，对图二、三分别进行了唇部和眼部的局部人脸融合，可以看出局部融合度非常高，高清、自然，看不出一点破绽。同时它能够随着唇部抖动即时贴合，毫无跳脱感。而且研究人员证实，影片中的人脸交换一般比静态图像效果更好。

局部人脸交换在动态影片中的融合优势，这在电影场景中是非常必要的。

更值得关注的是它可以产生百万级像素的解析度。不过，研究人员表示他们采用了一种渐进式的方法（Progressive Tr AI ning）对原始影片、图像进行预训练，演算法可从中提取较高解析度图像。下图可明显看到经训练的人脸像素远高于未经训练的结果。

（Source：DisneyResearch，下同）

研究人员介绍，基于高清解析度和局部融合技术的新型演算法最大限度地扩展了人脸交换在电影中的应用。除了替身演员的全脸交换外，如果需要刻画一位年龄逐渐增长的任务或已经进入垂暮之年的老人，可以根据需要为角色添加细微皱纹、发型和体态。

另外，它可以与其他作品完成表演上的替换，当然这里可以对原影片的背景和光照进行特殊处理，以使他可以融入电影场景中。这也是区别于传统后期制作的一种新方法。

基于梳状模型的最新演算法

那么这项 AI 换脸技术是如何实现的呢？我们先来看一组完整的换脸路径图：

▲ 人脸交换源的完整示意图。

步骤 1 和 2：对原始图像进行脸部辨识、特征提取，以及标准化剪裁（1,0241,024）。

步骤 3：将图像输入通用编码器进行模型训练。

步骤 4：将解码后输出的图像与需要配合的目标进行多频带混合，最终得到人脸交换后的效果图。

其中通用编码器的训练模型是一个关键，这里研究人员采用的是一种渐进式梳状网络结构（Comb Model）脸部交换主要是透过域转移的方法来实现。我们使用通用编码器将经预处理的图像嵌入共享的潜在空间中，然后使用与之对应的解码器将这些嵌入映射回像素空间中。通常域转移主要在这两个空间中进行切换，但在本文中，研究人员扩展了一种新的思路。

如我们图中看到的，经编码器处理的图像，被解码器分支到 P个域中，研究人员将这种架构成为梳状模型，这里各个编码器就相当于梳状结构的“梳齿”。

在这里，单个梳状模型可以处理多个原始目标的人脸融合，而且与双向模型相比，它可以有效减少训练的时间，同时明显提高图像的保真度。

如前文所说，模型训练采用的是一种渐进式的方式。该过程透过对高解析度图像进行降采样，得到低解析度图像，然后在训练中再逐步输入高解析度，逐渐扩展网络的容量，最终得带高保真图像。

不过，这里要注意的是，最终输出的图像解析度会受到原始数据集图像解析度的限制。如果数据集缺乏高解析度，可以采用超解析度的方式对图像进行预处理，不过最好采用特定于脸部的 SR 训练方法。

除此之外，研究人员介绍，梳状模型和多频带的混合策略，还有助于保持融合背景的光线和对比度。

对比分析，优势明显

研究人员将渐进式梳状模型与目前 3 种开源的人脸技术，分别为 Deepfake、DeepFaceLab 和 Nirkin et AI 进行对比研究。其中，Nirkin et AI 采用三维可变模型，不需要预训练。后两者采用 Y 形自动编码器结构的实现。

▲ 人脸交换方法的比较

本次试验对 5 组人脸进行了对比。前 2 列分别是原始图像和目标图像，需要进行 AI 融合，从之后的图像可以看出，本次研究模型在细节融合、图像解析度以及阴影处理上，要高于其他演算法模型。

而且，它采用的多频带混合在消除伪影方面要明显优于泊松混合。DeepFakes 和 DeepFaceLab 都是使用泊松混合（Poisson）。

不过，研究也存在明显的局限性，比如无法对戴眼镜的人进行稳定的人脸交换，不是因为眼镜部分无法渲染，而是无法将脸部与周围图像混合。研究人员曾尝试调整输入源与之相配合，但结果时好时坏。

不过，研究人员也解释在实际应用或电影场景中，可能影响不大。

High-Resolution Neural Face Swapping for Visual Effects
Disney Research neural face-swapping technique can provide photorealistic, high-resolution video
Disney’s Developed Movie-Quality Face-Swapping Technology That Promises to Change Filmmaking

（本文由雷锋网授权转载；首图来源：DisneyResearch）

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

AI

走进好莱坞大片的 Deepfake

基于梳状模型的最新演算法

对比分析，优势明显

相关文章