Stable Video Diffusion 发表,可用图片产生影片

Stable Video Diffusion 发表,可用图片产生影片

Stability AI 宣布“Stable Video Diffusion”基于现有 Stable Diffusion 文字到图像 AI 模型,用图片产生影片,模型处于“研究预览”阶段,使用者需同意特定使用条款,如预期应用(如教育或创意工具、设计和其他艺术过程等)和非预期用途(如对人或事的真实或事实性表达)。

Stable Video Diffusion 有两种模型:SVD 和 SVD-XT。SVD 能将静态图像转为 14 帧 5761,024 影片,SVD-XT 使用相同架构,但帧数提高到 24 帧,两者均能以每秒 3~30 帧速度产生影片。根据白皮书,SVD 和 SVD-XT 最初以数百万影片的资料库训练,然后用数十万至百万小型影片库“微调”。但影片资料库来源不清楚,可能造成 Stability AI 及用户使用权的法律和道德挑战。

尽管如此,Stable Video Diffusion 技术仍有限制,如无法产生静态或慢动作影片,不能用文字控制,无法清晰渲染文字,也不能正确产生人脸和人物。Stable Video Diffusion 推出也引发担忧,尤其可能滥用的风险。模型似乎没有内建内容过滤器,可能拿去制作不当内容。

Stability AI 表示,模型有很高扩展性,并可适用产生物体 360 度图等。计划推出一系列基于 SVD 和 SVD-XT 的新模型,以及将文字提示带上网络的“文字到影片”工具,最终目标似乎是商业化,潜在应用领域有广告、教育、娱乐等。

(本文由 Unwire HK 授权转载;首图来源:Stability AI

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。