揭密 Sora:用大语言模型理解影片,实现物理世界“涌现”

揭密 Sora:用大语言模型理解影片,实现物理世界“涌现”

当全球还在文字产生文字,以及文字产生图片时,OpenAI 就推出影片产生模型 Sora。简单讲,是用文字指令或静态影像产生长达 1 分钟影片的扩散模型,且可含精细复杂场景、生动角色表情及复杂镜头运动──它做到市面模型还做不到的事。

Sora如何做到的?《品玩》曾第一时间据仅有资讯判断:

简单理解,就是语言模型够强大后,泛化能力直接学习图像资料和模式,还可直接用学来的图片产生模型最能理解的方式,下指令给使用引擎等强大成熟的影片产生技术的视觉模型模组,最终产生我们看到的真实“理解”物理世界的影片。

之后OpenAI公布Sora技术报告《Video generation models as world simulators》,印证了《品玩》推断。接下来就从报告解读Sora的技术。

用大语言模型思路理解影片

Sora设计灵感来自大语言模型,因核心功能之一是透过程式码将多种文字形式统一。OpenAI为了训练Sora,也将各类视觉资料转化为统一表示法。

正式了解Sora前,先解释“块”(patches)概念,有点类似大语言模型的token,“块”指将影像或视讯影格分割成一系列小区块,是模型处理和理解原始资料的基本单元。

对影片模型而言,区块不仅含局部空间资讯,还有时间轴连续变化资讯。模型可透过学习“块”的关系捕捉运动、色彩变化等复杂视觉特征,并重建新序列,有助模型理解和产生连贯动作与场景变化,使影片内容品质优秀。

OpenAI又在块的基础上,压缩到低阶潜在空间,再分解为“时空区块”(spacetime patches)。

揭密 Sora:用大语言模型理解影片,实现物理世界“涌现” AI与大数据 图2张

(Source:OpenAI

潜在空间是三年前出现的概念,指高阶资料经过某种数学变换(如编码器或降维技术)后映射至低阶空间,每点通常对应原始高阶资料的潜在表示或抽象特征向量。但最佳化强大扩散模型往往需要消耗数百个GPU日计算资源,且因序列评估性质,推理成本较高。本质上来讲,潜在空间就是能在降低复杂性和保留细节间达到近乎最优的平衡点,大大提升视觉。

时空块则是指从视讯帧序列提取、有固定大小和形状的空间:时间区域。相较块,时空块强调连续性,模型可透过时空块观察影片内容随着时间和空间变化的规律。

为了制造时空块,OpenAI训练神经网络,降低视觉资料维度,称为影片压缩网络(Video compression network),接受原始影片输入,并输出时间和空间都压缩过的潜在表示。Sora在压缩后潜在空间训练和产生新影片,OpenAI也训练对应解码器模型,将潜在向量映射回像素空间。

刚才提到“块”非常接近token,那块作用也应该和token差不多。对压缩输入影片,OpenAI直接提取一系列块当成Transformer token用,然后这些时空块会再编码并传给Transformer网络学习全局自注意力。最后用Transformer的强大能力处理并产生不同属性的影片内容。

此方案同样适用图片,因可视为仅一帧的影片。基于区块的表示法使Sora能训练不同解析度、时长和宽高比的影像。推理阶段可透过适当大小网格排列随机初始化区块以控制产生影片的尺寸。

Sora模型介绍页面虽然提到都是透过文字产生影片,但Sora也能接受其他类输入,如图片或影片,可达图片产生影片、影片产生影片,使Sora能执行广泛影像编辑,如制作完美循环播放影片、为静态图像添加动画效果、向前或向后延展影片时间轴等。

实现物理世界“涌现”

长期训练时OpenAI发现sora模型逐渐拥有新能力,称为“3D一致性”,指Sora能产生动态视角影片,视角移动与旋转后,人物及场景元素在3D空间仍可保持一致运动状态。

揭密 Sora:用大语言模型理解影片,实现物理世界“涌现” AI与大数据 图3张

这可能对人类来说没什么,但对人工智慧来说相当厉害。人工智慧理解3D物理世界的方式跟人类不一样,是拓朴结构理解。这里的拓朴结构不是电脑拓朴结构,而是拓朴学的拓朴结构。拓朴结构是几何或空间的抽象描述,描述集合元素间的连接方式和空间属性,不考虑特定度量或形状,关注空间的点与点连结关系及空间整体形状,而不是真实尺寸或角度等细节。

除此之外,既然影片视角发生变化,那对应纹理映射也要改变。Sora的真实感非常强,换句话说,纹理映射至拓朴结构就得非常准确,3D一致性能力使Sora能模拟现实世界人物、动物和环境某些方面。

让人兴奋带点害怕的消息是,这些属性并非透过为3D、物体等添加明确归纳偏压而产生,纯粹是规模效应。也就是说,是Sora自己根据训练内容,判断现实世界某些物理客观规律,某种程度上,人类如果只是肉眼观察,也很难达到这境界。

影片模型另一项重大挑战,是在产生长影片时保持时间连贯,Sora也能有效模拟短程和长程依赖关系。如人物、动物或物体被遮蔽或离开画面,Sora仍能保持这些元素存在视线外,等到视角转换到能看到的时候,再将这些内容展现出来。同样的,它能单一样本产生同角色多个镜头,并整支影片都保持外观一致。

这点没什么,因Sora是从Transformer模型孕育而来,Transformer本身就能透过全域自注意力机制等技术达成高连续性,Sora不过从影片阐述连续性而已。OpenAI得出结论:影片模型是建立通用世界模拟器的康庄大道。

甚至Sora目前能力表明,它能透过观察和学习了解物理规律。

不过Sora若当成模拟器还有限制。OpenAI主页列举常见失效模式,如长时间采样可能不连贯,物体异常等。从现有结果看,还无法准确模拟许多基本物理规律,如玻璃破碎及吃东西。物体状态变化并不总是能正确模拟,这说明许多现实物理规则没办法透过训练推断。

揭密 Sora:用大语言模型理解影片,实现物理世界“涌现” AI与大数据 图4张

(Source:OpenAI)

上图为报告核心资讯,OpenAI一如既往于模型和细节方面保持Close,不过又不停提到“大力出奇迹”。

报告提到:大规模训练时影片模型展现出许多有趣的能力,使Sora能模拟现实世界人类、动物和环境某些面向,没有任何针对3D、物体等明确归纳偏见,纯粹是规模效应现象。OpenAI显然把Sora描述成一直坚持的Scaling law的又一次胜利──没有多纯粹原创的技术,很多早已存在,却比所有人都笃定走下去,并用大量资源及规模验证。

(本文由 品玩 授权转载;首图来源:OpenAI)

延伸阅读:

  • OpenAI 发表文字生成影像模型“Sora”,快速创造逼真电影场景
  • 揭密最强影片模型 Sora,OpenAI 如何 1 分钟一镜到底?

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。