OpenAI 发表文字生成影像模型“Sora”,快速创造逼真电影场景

OpenAI 发表文字生成影像模型“Sora”,快速创造逼真电影场景

ChatGPT 开发商 OpenAI 跨足影像生成领域,15 日发表文字转成影片的全新 AI 模型“Sora”。

OpenAI 指出,透过简短或详细文字叙述,抑或是提供静态图片,Sora 就能产生具有多个角色、不同运镜和背景细节的 1080p 影片。此外,Sora 还具有影片剪辑能力,可以填补剪辑缺失造成的错误细节。

Sora 对语言有着深刻理解,使其能够准确解释提示文字并产生引人注目内容表达充满活力的情感”,OpenAI 在官网介绍写道,“这款模型不仅了解用户透过提示文字提出的要求,还了解这些事物在物理世界的存在方式”。

对初学者而言,Sora 可以产生各种风格(如真实感、动画、黑白等)影片,最长可达 1 分钟,这比大多数文字转成影片模型的成果还要长,而且这些 AI 生成影片保有合理的场景和连贯性,少有不符合物理世界的呈现方式。

▲ OpenAI 展示多个 Sora 影像生成实例。

尽管 OpenAI 有此先进技术,但它也承认这款模型不够完美。“Sora 可能很难准确模拟复杂场景的物理原理,而且可能无法理解具体事例的因果关系。比方说,某个人可能咬了一口饼干,但饼干可能没有出现咬痕。这款模型还有可能会混淆提示文字的空间细节,例如左右搞混,而且可能难以精确描述随着时间演进发生的事件,例如依循特定的运镜轨迹”,OpenAI 指出。

值得一提的是,OpenAI 目前将 Sora 定位在研究预览版,未透露训练模型的资料来源。OpenAI 更没有让 Sora 全面开放使用,深怕一旦大规模开放可能遭到滥用,造成难以收拾的后果。

OpenAI 正与专家合作探索是否存在漏洞以不法使用 Sora,并建立工具检测影片是否由 Sora 产生。如果未来这款模型应用在面向大众的产品中,OpenAI 将确保输出内容包含来源 metadata。

OpenAI 旗下已有 ChatGPT、DALLE 等应用产品,2024 年初即以 Sora 令业界惊艳。NVIDIA 资深研究科学家 Jim Fan 分析,Sora 是一个以数据驱动的物理引擎,可产生对真实或幻想世界的模拟。他举两艘海盗船在一杯咖啡内航行互相战斗的 AI 生成影片为例,Sora 模拟具有不同装饰的海盗船,在咖啡杯航行避开彼此路径而且保持动态效果,并注意到咖啡流动的流体力学,甚至是海盗船周围形成泡沫等细节。此外,考量到咖啡杯与海洋相比尺寸小很多,应用移轴摄影营造微小氛围。咖啡杯内航行海盗船在真实世界无法存在,Sora 仍能逼真模拟。

▲ Jim Fan 分享对 Sora 模型应用的观察。

从 OpenAI 精心挑选的 Sora 实例看起来确实令人印象深刻,与我们所见的其他文字转成影片技术相比,Sora 成果品质更好、呈现更流畅。

  • OpenAI’s newest model Sora can generate videos — and they look decent

(首图来源:影片截图)

延伸阅读:

  • OpenAI 宣布 AI 生成图将加入数位浮水印
  • OpenAI 调降 GPT 3.5 Turbo 计价,修复 GPT-4“懒惰”毛病
  • 2024 选举年,OpenAI 提出工具防止不实图文资讯滥传
  • GPT Store 上线盼推动 AI 应用经济,OpenAI 新推 ChatGPT Team 方案
  • ChatGPT 只会更强!阿特曼承诺:十大许愿都会在 2024 年实现

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。