AI 突破次元壁又来了!《天外奇迹》角色 1 秒变真人
▼
从“换脸”到“生成动画脸”,AI 影像合成技术已非常成熟。
因为支援一键切换,且效果逼真,之前抖音“变身漫画”特效还登上微博热搜,从明星到路人,近千万用户使用。国外也有一款“秒变迪士尼公主”工具,上线当天就因为浏览量过大被迫关门一阵子。
从发型、脸部轮廓到五官,一切自订化动画脸,感觉不用后期处理就能直接去演电影了。
这件事引起 AI 艺术家 Nathan Shipley 的好奇心,AI 生成动画脸如此逼真,那么反过来,将动画角色转成“真人”效果会怎么样?刚好最近国外研究团队推出一通用版 AI 模型:Pixel2Style2Pixel(pSp)。
因此 Shipley 便利用这款 AI 模型,尝试转换《超人特攻队》、《天外奇迹》等动画电影角色,结果也因效果太好登上 Reddit 热门榜。
《超人特攻队》的“飞毛腿”巴小飞,“真人版”形象也太有喜感了。
仔细看头发、眉毛等细节都转得不错。
还有弹力女超人巴荷莉、超能先生巴鲍伯,除了鲍伯夸张的动画脸型,这些角色似乎也能在现实世界找到真人演员。
不过《天外奇迹》的小罗是不是出了什么错?五官正常,但发型怎么怪怪的……
其实是 AI 把小罗的帽子当成头发了,结果就变成这样。网友笑说改成“猫王”发型也很酷!
不只动画角色真人化,这款通用 AI 模型还可用在画作转换。如果说动画角色真人化还有些卡通风,那么迪亚哥里维拉(Diego Rivera)两幅画的还原效果也很高品质。
这项技术如何达成的?
pSp:通用版影像合成模型
Pixel2Style2Pixel(pSp)是影像到影像的转换框架,由 Penta-AI 和以色列特拉维夫大学的 Elad Richardson、Yuval Alaluf 等人在名为《Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation》的论文提出。
pSp 框架基于新编码器网络,可直接生成一系列样式向量,送入预先训练的 StyleGAN 建构程式,形成可延伸的 W+ 潜在空间。
pSp 是简单的架构,透过特征金字塔延伸三等级特征对映,中间网络 map2style 负责从汇入端撷取样式,然后将样式按照一定比例传输到建构程式(StyleGAN Generator),最后汇出影像。过程中完成像素转换的“中间样式表示”带来不依赖局部像素到像素对应的全域方法,且透过风格重取样支援多模态合成。
总体来说,相较传统 StyleGAN 模型,pSp 新型编码器架构在影像合成有两项进步,一是能将真实脸部影像直接编码到 W+ 潜在域;二是解决点到点通用任务。
为了评估 pSp 框架影像到影像转换的有效性,研究人员测试了常见的影像处理如脸部正面化、条件面合成和超解析度。
实验测试及结果
StyleGAN Inversion
目标是在潜在域寻找真实影像的潜在程式码。研究人员比对 pSp 与 ALAE 和 IDInvert 架构的编码器。ALAE 基于 StyleGAN 的自动编码器,与建构程式一起训练以生成潜在程式码。IDInvert 是将真实影像嵌入预先训练的 StyleGAN 潜在域,然后将影像编码为 W+,再最佳化生成的潜在影像。
从实验结果来看,ALAE 在 W 域无法准确重建汇入影像,而 IDInvert 虽然保留了影像原始属性,但显然更细节的处理步入 pSp 模型。
脸部正面化(Face Frontalization)
由于缺少高品质且完整的脸部数据库,脸部正面化对影像转换框架来说是艰难的挑战。确保训练和编码器一致情况下,pSp 处理时从两方面最佳化。一是目标增强,一是削弱背景。
- 目标增强:pSp 会随机翻转目标影像,并生成与汇入影像不一致的姿态。如果没有影像增强过程,模型只会简单学习汇入影像的编码符合姿态。
- 削弱背景:为了降低背景影像对脸部的干扰,pSp 降低损失目标的权值(如降低 LPIPS 和 L2 损失函数)
实验结果如下:
使用相同资料训练时,pix2pixHD 无法收敛到令人满意的结果,因更依赖汇入和汇出对的对应关系。相反地,PsP 能成功保持身分同时生成逼真的正面脸。另外,转化过程采用 3D 对齐也有不错表现。
这表明,即使无数据标记的情况下,基于风格的转换机制也能克服脸部正面化的挑战。
条件影像合成(Face From Sketch)
目标是在指定汇入影像下生成具真实感的影像。比如从简笔草稿生成高品质脸部,条件影像合成是单体对映,理想对映框架应能给定汇入生成多个不同汇出,因此 pSp 采用一种多模态综合法。
草稿生成脸部的实验,常用方法要求汇入草稿与生成影像像素对应,以产生与汇入对齐的汇出。如果汇入不完整,可能无法有效转化草稿到影像,如 pix2pixHD。
从实验结果来看,pix2pixHD 处理抽象草稿的视角效果很差,故 pSp 提供专门的对映网络。
与 pix2pixHD 相比,FaceDrawing 绘制可取得更满意的效果,但多样性仍然受限制,相反 pSp 有不同汇出的能力,且更能保留细节(如毛发)。
超解析度(Super Resolution)
目标是基于低解析度(LR)汇入影像转化为高解析度(HR)脸部影像。常用方法是采用脉冲(PULSE)无监督。具体而言,对给定的 LR 汇入影像,脉冲遍历 HR 影像流,以搜寻缩小到初始 LR 影像的 HR 影像。
但不同的是,研究人员研究有监督方式下,应用 pSp 的解决效果。从实验比较结果来看,pix2pixHD 在 1616 向下取样,以及 PULSE 在 88 取样时,视觉上均明显失真。pSp 均能在初始影像的基础上,获得更有真实感的影像。
研究人员还展示 pSp 模型在局部编辑、影像修复和脸部影像内建应用等的效果,更多内容可见论文。
这款 AI 模型已在Github开源,感兴趣的读者可自己体验,看看喜欢的动画角色真人化后会变成什么模样。
- [P] Creating “real” versions of Pixar characters using the pixel2style2pixel framework. Process and links to more examples in comments.
(本文由 雷锋网 授权转载;首图来源:Nathan Shipley)
延伸阅读:
- 一键切换“漫画脸”AI:秒变“迪士尼在逃公主”
- AI 换脸用来拍电影愿望终于要实现了?迪士尼自研演算法突破高画质百万像素
▼
特别声明 本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。