Google 推出影像生成模型 VideoPoet，五大功能产生直式短影音

AI与大数据 8小时前 0

▼

近来一波波影像生成模型出现，无论是贴近提示要求或在影像处理细节上，许多情况下展现出令人惊艳的高品质。Google 也不甘示弱，日前发表自主开发的大型语言模型 VideoPoet。

为了探索语言模型在影像生成中的应用，Google 引进全新大型语言模型 VideoPoet，能够执行包括文字转成影片、图片转成影片、影片风格转换、影片修复、影片生成音讯等五大功能，而且预设产生直式短影音。

比方说，文字提示输入“两只熊猫打扑克牌”，VideoPoet 产生两只熊猫坐在桌边打扑克牌的短片。图片转成影片方面，像是上传一张油画图片，画中一艘航向大海的船遭遇雷电交加、波涛汹涌，借由 VideoPoet 可以转变成动图型态。VideoPoet 也能为影片产生音讯，例如先以模型产生 2 秒短片，并尝试在没有任何文字提示下配上音讯，于是从单一模型就能产生影片和音讯。

▲ VideoPoet 五大功能概述。

VideoPoet 是训练一个自回归语言模型，透过使用多个标记器（用于影片和图片的 MAGVIT V2，以及用于音讯的 SoundStream）学习影片、图片、音讯、文字形式，像是透过文字和图片输入分解、标记，进而产生复杂的影像。

Google 目标希望 VideoPoet 能够“any-to-any”，根据任何提示任意转换，同时也要扩展至文字转成音讯、音讯转成影片、产生影片字幕等功能。

VideoPoet 将许多影像生成功能无缝整合至单一模型，而不是针对不同任务单独训练模型，特别在产生有趣影片和高品质动作上，展现出大型语言模型具高度竞争力的影像生成品质。

▲ 开发团队制作一部由 VideoPoet 产生不同短影音组合而成的介绍影片。

（图片来源：Google Research Blog）

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

相关文章