神奇影片修复 AI，可换天造物秒变科幻大片

AI与大数据 26分钟前 0

▼

AI 修图到底有多强？前几日 Adobe Max 大会刚结束，Photoshop 2021 版便登上各大媒体版面。

因新版 PS 工具内建 AI 驱动工具，如“天空置换”等高难度修图问题，现在点点鼠标就轻松达成，效果远超过人手慢慢修。

无论拍人拍景或其他，“天空”都是摄影的关键元素。如一张平平无奇的景色图加上落日余晖的天空色调，是不是更有味道？

对短片爱好者来说，修影片如果也能达到如此境界，岂不是高兴到飞上天？

没错，今天就是要介绍一款基于原生影片的 AI 处理工具，不仅可一键更换天空背景，还可打造各种“天空之城”。

AI 影片新玩法

这项 AI 处理工具来自密西根大学的华裔博士后最新研究，基于视觉技术可一键调整影片天空背景和转换天气。

如《星际争霸战》等科幻电影经常出现的浩瀚星空、宇宙太空船，也可利用这项技术融入随手拍的影片。

（Source：SkyAR，下同）

公路片秒变科幻片，毫无违和感。影片的蓝色天空也随太空船变成灰濛濛色调，世界末日感马上就出来了。

当然玩法还不只如此。动漫迷也可创建自己的移动城堡。喜欢《天空之城》、《霍尔的移动城堡》的人应对下面这幕非常熟悉。

或挂上一颗超级月亮，又是另一番景象。

只要脑洞够大，利用这项 AI 技术，影片创作就有无限玩法。

另外还有天气转换功能，如晴空万里、阴雨绵绵、雷雨交加等各种天气，都可随意切换。

喜欢玩 Vlog 的朋友是不是心动了？研究人员表示，现在已考虑制作成外挂程式／脚本，方便业界或个人使用。

在此之前，这项技术的 AI 代码已在 Github 开源，懂技术的读者可先安装玩玩看。

技术原理

不同于传统研究，研究人员提出一种完全基于视觉的解决方案。好处就是可处理非静态图像，同时不受拍摄设备限制，也不需要用户互动，可处理线上或离线影片。

上述实验影片，均是透过智慧手机和行车记录器在野外拍摄。经过处理后，影片画质、运动动态、照明转换方面都还有较高保真度。如浮动城堡、超级月亮范例，使用单张 NVIDIA Titan XP GPU 卡，可输出解析度 640320 达 24fps 的即时处理速度，854480 时达近 15fps 即时处理速度。

此工具分为 3 个核心模组：

天空遮罩框架（Sky Matting Network）：检测影片帧天空区域的影片框架。采用基于深度学习的预测通道，产生更精确的检测结果和更具视觉效果的天空模版。
动态预测（Motion Estimation）：恢复天空动态的动态估算器。天空影片需在真实摄影机运动下渲染及同步。
图像混合（Image Blending）：将用户指定的天空模板混合到影片帧的 Skybox。除此之外还能重置和着色，使混合结果在颜色和动态范围内更逼真。

完整框架如下图：

天空遮罩框架：利用卷积神经网络（CNN）的优势，在一像素级回归框架下预测天空冰雹，可产生粗细两种天空模版。天空遮罩框架由一个分段编码器（ Segmentation Encoder ）、一个掩模预测解码器（Mask Prediction Decoder）和一个软细化模组（Soft Refinement Module）组成。编码器的目的是学习采样输入图像的中间特征。解码器训练和预测粗糙的天空。优化模组同时接收粗糙的天空模版和高解析度输入，并生成高精度的天空模版。

动态预测：研究人员直接预测目标在无穷远处的动态，并创建图像混合的天空盒（Skybox），透过将 360 度天空盒模板图像混合到透视窗口，渲染虚拟天空背景。

假设天空模式运动是由矩阵M²R³³模拟，由于天空中物体（如云、太阳或月亮）应在同位置，假设透视变换参数是固定值，并已包含于天空盒背景图像，然后使用更新 Lucas-Kanade 和金字塔方法计算光学流，进而逐帧关注一组稀疏特征点。对每对相邻帧，给定两组 2D 特征点，使用基于 RANSAC 的强健性模糊估计计算有 4 个自由度（仅限于平移、旋转和均匀缩放）的最佳 2D 变换。

图像混合：预测天空模版时，输出像素值越高，表示像素属于天空背景的机率越高。常规方法通常利用图像遮罩，将新合成的影片帧与背景线性组合，以当作像素级组合权重。

但由于前景色和背景色可能是不同色调和强度，因此直接进行上述方法可能会导致不切实际的结果。研究人员应用重新着色和重新照明技术，将颜色和强度从背景转移到前景。

实验结果

研究人员采用天空电视台数据集，是基于 AED20K 数据集构建而成，包括多子集，每个子集对应使用不同方法创建真实的填空遮罩。

本次试验使用“ADE20K＋DE＋GF”子集培训评估，共有 9,187 张图像，验证集有 885 张图像。以下为基于此工具的影片天空增强效果：

▲ 最左边是输入影片起始帧，右边图像依序是不同时间段的输出效果。（Source：arXiv.org，下同）

天气转换的效果为晴到多云、晴到小雨、多云到晴天及多云到多雨。

合成雨天图像时，研究人员透过萤幕混合在结果顶层添加动态雨层（影片源）和雾层。结果显示，只需稍修改 skybox 模板和重新照明因子，就可做到视觉逼真的天气转换。

下为与 CycleGAN 的比较结果。CycleGAN 是基于条件生成对抗网络的非成对图像到图像转换。定性方面，此方法表现出更高保真度。

▲ 第一行为两个原始输入帧；第三行为 CycleGAN 结果。

定性比较方面，PI 和 NIQE 得分值越低越好。

可看出，此工具在定量指标和视觉质量都优于 CycleGAN。

更多详细内容可参见《Castle in the Sky: Dynamic Sky Replacement and Harmonization in Videos》。

作者介绍

Zhengxia Zou 是第一作者，目前是密西根大学安娜堡分校博士后研究员，2013 年和 2018 年获得北京航空航天大学学士学位和博士学位，后加入密西根大学，研究兴趣包括电脑视觉在远距、自动驾驶及影片游戏相关应用。近几年发表的多篇相关论文被 ACM、CVPR 及 AAAI 收录。

对这项研究，Zhengxia Zou 认为除了影片领域应用，还有一潜在应用──数据扩充。他说：

数据集的规模和品质是电脑视觉技术的基础，在现实场景，即使 ImageNet、MS-COCO 等大规模数据集，应用时也有采样偏差造成的局限，此方法对提高深度学习模型检测、分割、关注等各种视觉任务的泛化能力，有很大的潜力。

不过当然研究也有局限性，主要是两方面：

天空遮罩网络无法检测夜间影片的天空区域。
当影片某段时间没有天空像素，或没有纹理时，天空背景运动就无法精确建模。

因运动估计的特征点假定为同一位置，并使用距离第二远的特征点估计运动，会不可避免有误差。

因此未来研究会着重于 3 方向最佳化：第一是自适应天空光照；第二是强健性背景动态预测；第三是探索基于天空渲染的数据增强目标检测和分割的有效性。

[R] This AI finally lets you fake dramatic sky background and lighting dynamics in videos. Code available. More details in the comments.

（本文由雷锋网授权转载；首图来源：影片截图）

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

AI 影片新玩法

技术原理

实验结果

作者介绍

相关文章