揭密最强影片模型 Sora，OpenAI 如何 1 分钟一镜到底？

AI与大数据 55分钟前 0

▼

OpenAI 终于从“弹药库”掏出 AI 影片产生工具 Sora，瞬间占据各大新闻头条，就连常唱衰 OpenAI 的马斯克也承认 Sora 很强大，并盛赞“几年内人类借助 AI 的力量，将创造出卓越的作品”。

Sora 的强大之处在根据文本描述，产生长达 60 秒连贯流畅的影片，有细腻复杂的场景、生动角色表情及复杂镜头运动。与只能产生短至个位数长度的影片，Sora 一分钟长度无疑等于掀桌。

更重要的是，无论真实性、长度、稳定性、一致性、解析度还是文本理解，Sora 均展现出最佳水准。先来欣赏官方公开的宣传影片。

Prompt: Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf

— OpenAI (@OpenAI) February 15, 2024

无人机视角的一对情侣于繁华城市街道穿梭，美丽樱花花瓣随着雪花在空中翩翩起舞。当其他工具还在努力保持单镜头稳定，Sora 已丝滑无缝切换多镜头，且连贯性和对象一致性都遥遥领先，真是降级打怪。过去要拍摄这类影片可能需耗费大量时间和精力先写剧本、设计分镜等繁琐工作，现在仅要一段简单文字描述，Sora 就能生出大场面，从业者或许已在瑟瑟发抖。

网友 @debarghya_das 用 Sora 剪辑、David Attenborough 在 Eleven Labs 的声音及 iMovie YouTube 自然音乐样本，15 分内就做出 20 多秒的预告。

Sora 是怎么做到的？

OpenAI 也公开 Sora 详细报告，介绍技术原理和应用。受 LLM 成功经验启发，OpenAI 引入视觉块嵌入代码（patches），这是种高度可扩展且有效的视觉数据表现形式，大大提升生成模型处理多样化影片和图片资料的能力。

高维度空间，OpenAI 先将影片数据压缩至低维潜在空间，然后再分解为时空嵌入，转成一系列编码块，之后训练专门降低视觉数据维度的网络，以原始影片输入，输出潜在表示时间和空间都经过压缩，Sora 正是在这个压缩后潜在空间训练，并在这空间产生影片。

OpenAI 还训练一解码器模型，能将潜在表征还原成图元级影像。处理压缩后影像输入，研究员能提取出一系列时空 patchs，在模型扮演类似 Transformer Tokens 的角色。因基于 patchs 的表现形式，Sora 能适应不同解析度、持续时间及宽高比影像，产生新内容时，可将随机初始化 patchs 照需要大小排成网格，控制最终影片大小和形式。

尽管原理听起来很复杂，但其实 OpenAI 新技术：视觉块嵌入代码（简称视觉块）就像将一堆杂乱无章的积木整理好放入小盒子，如此即便面对再多积木，只要找到所属小盒子，就能轻松找到所需积木。影片数据转化成一个个小方块，当 OpenAI 给 Sora 新任务时，先从影片提取含时间和空间资讯的小方块，之后将小方块交给 Sora 根据资讯产生新影片，就像拼拼图将影片重新组合。这样做的好处是，计算机可更快学习和处理各种类型图片和影片。

Sora 训练越来越深入后，OpenAI 研究员还发现训练计算量增加，样本品质明显提高，OpenAI 发现直接在数据原始尺寸训练有许多优势：

Sora 训练时没有裁切素材，故能直接照不同设备的原生宽高比创建内容。
以影片原生宽高比训练，明显提升构图与布局品质。

Sora 还有以下特性：

训练文本到影片产生系统需大量有文字标题的影片，OpenAI 将 DALL‧E 3 引入的重新标注技术用于影片模型。类似 DALL‧E 3，OpenAI 使用 GPT 将使用者短提示词转成更长说明，发给影片模型，使 Sora 产生高品质影片。除了可从文字转化，Sora 还能接受图片或其他影片输入，让 Sora 编辑各种图片和影片，如制作无缝循环影片、帮静态图片加上动画效果、延长影片播放时间等。

如下方有“SORA”字样的逼真云朵图片转成动画。

装饰华丽的大厅，巨大海浪冲来，两位冲浪者抓住机会，巧妙驾驭海浪。

无需任何示范，Sora 就能改变影片风格和环境，甚至两个风格迥异的影片也能平滑连接。

Sora 还能文生图，团队可在时间范围为一帧空间网格排列高斯杂讯块创造出各种尺寸的图片，最大解析度达 2,0482,048。OpenAI 也坦率承认 Sora 目前的局限，如无法类比复杂场景的物理规则，以及理解某些特定因果关系，举例无法精确类比玻璃破碎等基本物理互动。

▲ 反向的跑步机。

不过 OpenAI 坚信，Sora 目前能力显示，持续扩展影片模型是朝开发类比物理和数位世界的物体、动物和人类模拟器充满希望的途径。

世界模型是 AI 下个方向？

OpenAI 发现大规模训练，Sora 展示出引人注目的能力，一定程度模拟真实世界人、动物和环境，并非基于 3D 空间或物体预设，而是由大规模数据驱动产生。

3D 空间连贯性：Sora 能产生有动态视角变化的影片。摄影机位置和角度变动时，影片人物和场景元素能 3D 空间连贯移动。
远距离连续性与物体持久性：即使人物、动物或物体被挡住或移出画面，Sora 也能保持长时间连续性，同样能在同影片样本多次展示同角色，并确保外观一致。
类比数位世界：Sora 还能模拟数位化过程，如游戏，只需提及〈Minecraft〉等字，就能激发能力。

OpenAI 将 Sora 视为“理解和模拟现实世界模型的基础”，相信能力“是实现 AGI 的重要里程碑”，辉达高级科学家 Jim Fan 更表示：

如果你认为 OpenAI Sora 就像 DALLE，只是创意实验工具，那你可能要重新考虑了。

Sora 其实是基于资讯的物理模拟引擎，能类比真实或虚拟世界。模拟器经降噪、计算梯度，学会复杂图像渲染、“直觉”物理行为、长远规划能力及语义层面理解等。

这种模型能力基础正是通用世界模型就是人工智慧系统，目标是建立更新状态的神经网络模组，记忆和建模环境。模型能根据观测（图片状态等）和即将采取的动作，预测下个可能，学习世界规律和常识，模拟环境可能发生的事件。

世界模型并不是新概念，去年 12 月 AI 影片产生领头羊 Runway 就宣布下场打造世界模型，目的是创建与现有 LLM 不同，能更真实模拟现实世界的人工智慧系统。世界模型的核心是透过记忆历史经验学习世界运作，预测可能发生的事，如从一段物体下落影片，模型可据画面预测下一帧，学到物体运动的物理规则。图灵奖得主 Yann LeCun 也提出过类似概念，并批评基于机率产生自回归的大模型如 GPT 会无法破解幻觉难题。LeCun 和团队甚至预言，GPT 等模型五年内就会淘汰。

世界模型可看成人工智慧领域，试图创建更接近人类智慧 AI 的方向。模拟和学习真实世界环境和事件，就有潜力推动 AI 向更高层次模拟和预测发展。2 月知名风险投资公司 a16z 合伙人 Justine Moore 深入分析 AI 影片产生领域的现状，生成式 AI 逐渐步入大众视野的两年间，AI 影片模型百花齐放，百家争鸣，OpenAI Sora 加入后，更将掀起滔天巨浪，主流平台 Runway、Pika 和 Stable Video Diffusion 等都可能会被波及，独立创作者游戏规则会彻底改变，任何人只要有创意和想法，就能用 Sora 产生影片。

创作门槛降低，代表独立创作者黄金时代即将到来。无论竞争状态如何，AI 影片产生领域都可能又被新技术和创新颠覆，Sora 只是开始，还不是终点。

（本文由爱范儿授权转载；首图来源：Sora）

延伸阅读：

OpenAI 发表文字生成影像模型“Sora”，快速创造逼真电影场景

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

世界模型是 AI 下个方向？

延伸阅读：

相关文章