Google 推出影像生成模型 VideoPoet,五大功能产生直式短影音

Google 推出影像生成模型 VideoPoet,五大功能产生直式短影音

近来一波波影像生成模型出现,无论是贴近提示要求或在影像处理细节上,许多情况下展现出令人惊艳的高品质。Google 也不甘示弱,日前发表自主开发的大型语言模型 VideoPoet

为了探索语言模型在影像生成中的应用,Google 引进全新大型语言模型 VideoPoet,能够执行包括文字转成影片、图片转成影片、影片风格转换、影片修复、影片生成音讯等五大功能,而且预设产生直式短影音。

比方说,文字提示输入“两只熊猫打扑克牌”,VideoPoet 产生两只熊猫坐在桌边打扑克牌的短片。图片转成影片方面,像是上传一张油画图片,画中一艘航向大海的船遭遇雷电交加、波涛汹涌,借由 VideoPoet 可以转变成动图型态。VideoPoet 也能为影片产生音讯,例如先以模型产生 2 秒短片,并尝试在没有任何文字提示下配上音讯,于是从单一模型就能产生影片和音讯。

Google 推出影像生成模型 VideoPoet,五大功能产生直式短影音 AI与大数据 图2张

▲ VideoPoet 五大功能概述。

VideoPoet 是训练一个自回归语言模型,透过使用多个标记器(用于影片和图片的 MAGVIT V2,以及用于音讯的 SoundStream)学习影片、图片、音讯、文字形式,像是透过文字和图片输入分解、标记,进而产生复杂的影像。

Google 目标希望 VideoPoet 能够“any-to-any”,根据任何提示任意转换,同时也要扩展至文字转成音讯、音讯转成影片、产生影片字幕等功能。

VideoPoet 将许多影像生成功能无缝整合至单一模型,而不是针对不同任务单独训练模型,特别在产生有趣影片和高品质动作上,展现出大型语言模型具高度竞争力的影像生成品质。

▲ 开发团队制作一部由 VideoPoet 产生不同短影音组合而成的介绍影片。

(图片来源:Google Research Blog)

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。