神奇影片修复 AI,可换天造物秒变科幻大片
▼
AI 修图到底有多强?前几日 Adobe Max 大会刚结束,Photoshop 2021 版便登上各大媒体版面。
因新版 PS 工具内建 AI 驱动工具,如“天空置换”等高难度修图问题,现在点点鼠标就轻松达成,效果远超过人手慢慢修。
无论拍人拍景或其他,“天空”都是摄影的关键元素。如一张平平无奇的景色图加上落日余晖的天空色调,是不是更有味道?
对短片爱好者来说,修影片如果也能达到如此境界,岂不是高兴到飞上天?
没错,今天就是要介绍一款基于原生影片的 AI 处理工具,不仅可一键更换天空背景,还可打造各种“天空之城”。
AI 影片新玩法
这项 AI 处理工具来自密西根大学的华裔博士后最新研究,基于视觉技术可一键调整影片天空背景和转换天气。
如《星际争霸战》等科幻电影经常出现的浩瀚星空、宇宙太空船,也可利用这项技术融入随手拍的影片。
(Source:SkyAR,下同)
公路片秒变科幻片,毫无违和感。影片的蓝色天空也随太空船变成灰濛濛色调,世界末日感马上就出来了。
当然玩法还不只如此。动漫迷也可创建自己的移动城堡。喜欢《天空之城》、《霍尔的移动城堡》的人应对下面这幕非常熟悉。
或挂上一颗超级月亮,又是另一番景象。
只要脑洞够大,利用这项 AI 技术,影片创作就有无限玩法。
另外还有天气转换功能,如晴空万里、阴雨绵绵、雷雨交加等各种天气,都可随意切换。
喜欢玩 Vlog 的朋友是不是心动了?研究人员表示,现在已考虑制作成外挂程式/脚本,方便业界或个人使用。
在此之前,这项技术的 AI 代码已在 Github 开源,懂技术的读者可先安装玩玩看。
技术原理
不同于传统研究,研究人员提出一种完全基于视觉的解决方案。好处就是可处理非静态图像,同时不受拍摄设备限制,也不需要用户互动,可处理线上或离线影片。
上述实验影片,均是透过智慧手机和行车记录器在野外拍摄。经过处理后,影片画质、运动动态、照明转换方面都还有较高保真度。如浮动城堡、超级月亮范例,使用单张 NVIDIA Titan XP GPU 卡,可输出解析度 640320 达 24fps 的即时处理速度,854480 时达近 15fps 即时处理速度。
此工具分为 3 个核心模组:
- 天空遮罩框架(Sky Matting Network):检测影片帧天空区域的影片框架。采用基于深度学习的预测通道,产生更精确的检测结果和更具视觉效果的天空模版。
- 动态预测(Motion Estimation):恢复天空动态的动态估算器。天空影片需在真实摄影机运动下渲染及同步。
- 图像混合(Image Blending):将用户指定的天空模板混合到影片帧的 Skybox。除此之外还能重置和着色,使混合结果在颜色和动态范围内更逼真。
完整框架如下图:
天空遮罩框架:利用卷积神经网络(CNN)的优势,在一像素级回归框架下预测天空冰雹,可产生粗细两种天空模版。天空遮罩框架由一个分段编码器( Segmentation Encoder )、一个掩模预测解码器(Mask Prediction Decoder)和一个软细化模组(Soft Refinement Module)组成。编码器的目的是学习采样输入图像的中间特征。解码器训练和预测粗糙的天空。优化模组同时接收粗糙的天空模版和高解析度输入,并生成高精度的天空模版。
动态预测:研究人员直接预测目标在无穷远处的动态,并创建图像混合的天空盒(Skybox),透过将 360 度天空盒模板图像混合到透视窗口,渲染虚拟天空背景。
假设天空模式运动是由矩阵M2R33模拟,由于天空中物体(如云、太阳或月亮)应在同位置,假设透视变换参数是固定值,并已包含于天空盒背景图像,然后使用更新 Lucas-Kanade 和金字塔方法计算光学流,进而逐帧关注一组稀疏特征点。对每对相邻帧,给定两组 2D 特征点,使用基于 RANSAC 的强健性模糊估计计算有 4 个自由度(仅限于平移、旋转和均匀缩放)的最佳 2D 变换。
图像混合:预测天空模版时,输出像素值越高,表示像素属于天空背景的机率越高。常规方法通常利用图像遮罩,将新合成的影片帧与背景线性组合,以当作像素级组合权重。
但由于前景色和背景色可能是不同色调和强度,因此直接进行上述方法可能会导致不切实际的结果。研究人员应用重新着色和重新照明技术,将颜色和强度从背景转移到前景。
实验结果
研究人员采用天空电视台数据集,是基于 AED20K 数据集构建而成,包括多子集,每个子集对应使用不同方法创建真实的填空遮罩。
本次试验使用“ADE20K+DE+GF”子集培训评估,共有 9,187 张图像,验证集有 885 张图像。以下为基于此工具的影片天空增强效果:
▲ 最左边是输入影片起始帧,右边图像依序是不同时间段的输出效果。(Source:arXiv.org,下同)
天气转换的效果为晴到多云、晴到小雨、多云到晴天及多云到多雨。
合成雨天图像时,研究人员透过萤幕混合在结果顶层添加动态雨层(影片源)和雾层。结果显示,只需稍修改 skybox 模板和重新照明因子,就可做到视觉逼真的天气转换。
下为与 CycleGAN 的比较结果。CycleGAN 是基于条件生成对抗网络的非成对图像到图像转换。定性方面,此方法表现出更高保真度。
▲ 第一行为两个原始输入帧;第三行为 CycleGAN 结果。
定性比较方面,PI 和 NIQE 得分值越低越好。
可看出,此工具在定量指标和视觉质量都优于 CycleGAN。
更多详细内容可参见《Castle in the Sky: Dynamic Sky Replacement and Harmonization in Videos》。
作者介绍
Zhengxia Zou 是第一作者,目前是密西根大学安娜堡分校博士后研究员,2013 年和 2018 年获得北京航空航天大学学士学位和博士学位,后加入密西根大学,研究兴趣包括电脑视觉在远距、自动驾驶及影片游戏相关应用。近几年发表的多篇相关论文被 ACM、CVPR 及 AAAI 收录。
对这项研究,Zhengxia Zou 认为除了影片领域应用,还有一潜在应用──数据扩充。他说:
数据集的规模和品质是电脑视觉技术的基础,在现实场景,即使 ImageNet、MS-COCO 等大规模数据集,应用时也有采样偏差造成的局限,此方法对提高深度学习模型检测、分割、关注等各种视觉任务的泛化能力,有很大的潜力。
不过当然研究也有局限性,主要是两方面:
- 天空遮罩网络无法检测夜间影片的天空区域。
- 当影片某段时间没有天空像素,或没有纹理时,天空背景运动就无法精确建模。
因运动估计的特征点假定为同一位置,并使用距离第二远的特征点估计运动,会不可避免有误差。
因此未来研究会着重于 3 方向最佳化:第一是自适应天空光照;第二是强健性背景动态预测;第三是探索基于天空渲染的数据增强目标检测和分割的有效性。
- [R] This AI finally lets you fake dramatic sky background and lighting dynamics in videos. Code available. More details in the comments.
(本文由 雷锋网 授权转载;首图来源:影片截图)
▼
特别声明 本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。