AI 影像去背有多强?无需“绿幕”,也可达专业级效果

AI 影像去背有多强?无需“绿幕”,也可达专业级效果

最近某热门 AI 计划引起网友注目,因听说它能带你环游世界,还能让 AngelaBaby 多拍几部电视剧。

深入了解后,发现原来是一款 AI 影像去背神器,一大早就冲上 GitHub 热门榜。官方介绍,此 AI 神器可让影像处理变简单且专业,不用“绿幕”也能达到逼真、毫无违和感的合成效果。

其实影像去背 AI 已有不少,但这款确实让人很惊艳。先来看下示范影片。

▲ 你能看出公路背景和大海背景的影像,哪个是 AI 合成的吗?连撩起的头发都看不出一丝破绽,就算疯狂跳舞也没有影响效果;动态也是如此,疯狂甩头也能即时捕捉细节。

此超强 AI 去背神器来自香港城市大学和商汤科技联合研究团队,论文第一作者还是在读博士生张汉科。

接下来看看背后的技术原理。

目标分解网络 MODNet

关键在于此 AI 采用轻量级的目标分解网络 MODNet(Matting Objective Decomposition Network),可从不同背景的单个输入图像平滑处理动态人像。

简单说,功能就是影像人像去背。

有些影视作品尤其是古装剧,必须要后期处理人物背景。为了达到逼真的合成效果,拍摄时一般都会使用“绿幕”布景,因绿幕可使高品质的 Alpha 蒙版即时提取图像或影像人物。

如果没有绿幕,通常的技术是光照处理法,即预定义的 Trimap 为自然光照演算法输入。这种方法会粗略生成三位图:确定的(不透明)前景,确定的(透明)背景及介于两者的未知(不透明)区域。

如果使用人工三位图不仅昂贵,且深度相机可能会导致精确度下降。因此,针对以上不足,研究人员提出目标分解网络 MODNet。AI 影像去背有多强?无需“绿幕”,也可达专业级效果 AI与大数据 图2张

(Source:arxiv.org)

如图所示,MODNet 由 3 个相互依赖的分支 S、D 和 F 构成,分别透过一个低解析度分支预测人类语义(SP)、一个高解析度分支来聚焦纵向的边界细节(DP),最后一个融合分支预测 Alpha Matte (p):

  • 语义估计(Semantic Estimation):采用 MobileNetV2[35] 架构,透过编码器(即 MODNet 的低解析度分支)提取高层语义。
  • 细节预测(Detail Prediction):处理前景肖像周围的过渡区域,以 I,S (I) 和 S 的低层特征为输入。同时对卷积层数、频道、输入解析度三方面最佳化。
  • 语义细节融合(Semantic-Detail Fusion):一个融合语义和细节的 CNN 模组,向上采样 S (I) 以使其形状与 D(I,S (I))匹配,再将 S (I) 和 D(I,S (I))连接起来预测最终 p。

另外,基于以上底层框架,研究还提出自监督策略 SOC(Sub-Objectives Consistency)和帧延迟处理方法 OFD(One-Frame Delay )。

SOC 策略可保证 MODNet 架构处理未标注数据时,让输出子目标有一致性;OFD 方法在执行人像抠像影像任务时,可在平滑影像序列预测 Alpha 遮罩。如下图:AI 影像去背有多强?无需“绿幕”,也可达专业级效果 AI与大数据 图3张

实验评估

开始实验评估前,研究人员创建一个摄影人像基准资料库 PPM-100(Photographic Portrait Matting)。包含 100 幅不同背景的精细注释肖像图。为了保证样本多样性,PPM-100 还定义成几个分类规则平衡样本类型,如是否包括整个人体;图像背景是否模糊;是否持有其他物体:AI 影像去背有多强?无需“绿幕”,也可达专业级效果 AI与大数据 图4张

PPM-100 的样图具丰富背景和人物姿势,因此可看成较全面的基准。

来看看实验结果:AI 影像去背有多强?无需“绿幕”,也可达专业级效果 AI与大数据 图5张

MODNet 在 MSE(均方误差)和 MAD(平均值)都优于其他无 Trimap 的方法。虽然性能不如采用 Trimap 的 DIM,但如果将 MODNet 修改为基于 Trimap 的方法──即以 Trimap 为输入,性能会优于基于 Trimap 的 DIM,也再次显示 MODNet 的结构体系有优越性。

此外,研究人员还进一步证明 MODNet 在模型大小和执行效率方面的优势。

模型大小透过参数总数衡量,执行效率透过 NVIDIA GTX1080 Ti GPU 超过 PPM-100 的平均参考时间来反映(输入图像裁剪为 512512)。结果如图:AI 影像去背有多强?无需“绿幕”,也可达专业级效果 AI与大数据 图6张

上图显示,MODNet 的推理时间为 15.8ms(63fps),是 FDMPA(31fps)的两倍。虽然 MODNet 的参数量比 FDMPA 稍多,但性能明显更好。

要注意的是,较少参数并不意味着更快的推理速度,因为模型可能有较大特征映射或耗时机制,如注意力机制(Attention Mechanisms)。

总之,MODNet 提出简单、快速且有效即时人像去背处理方法,仅以 RGB 图像输入,做到场景变化下 Alpha 蒙版预测。此外,由于提出的 SOC 和 OFD,MODNet 实际应用受到的区域转移问题影响也较小。

不过遗憾的是,此方法不能处理复杂的服装和模糊的运动影像,因为训练资料库没有这些影像。下阶段研究人员会尝试透过附加子目标(如光流估计)方法,以解决运动模糊下的影像去背问题。

  • Is a Green Screen Really Necessary for Real-Time Portrait Matting?
  • MODNet: Is a Green Screen Really Necessary for Real-Time Portrait Matting?
  • Do We Really Need Green Screens for High-Quality Real-Time Human Matting?
  • [R] Do We Really Need Green Screens for High-Quality Real-Time Human Matting?

(本文由 雷锋网 授权转载;首图为示意图;来源:pixabay)

延伸阅读:

  • AR 快速运用露曙光,手机拍摄就能复制贴上真实世界进电脑
  • Chrome 扩充功能自动去背,人物宠物一样 OK

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。