Google 推出影像生成模型 VideoPoet,五大功能产生直式短影音

▼
近来一波波影像生成模型出现,无论是贴近提示要求或在影像处理细节上,许多情况下展现出令人惊艳的高品质。Google 也不甘示弱,日前发表自主开发的大型语言模型 VideoPoet。
为了探索语言模型在影像生成中的应用,Google 引进全新大型语言模型 VideoPoet,能够执行包括文字转成影片、图片转成影片、影片风格转换、影片修复、影片生成音讯等五大功能,而且预设产生直式短影音。
比方说,文字提示输入“两只熊猫打扑克牌”,VideoPoet 产生两只熊猫坐在桌边打扑克牌的短片。图片转成影片方面,像是上传一张油画图片,画中一艘航向大海的船遭遇雷电交加、波涛汹涌,借由 VideoPoet 可以转变成动图型态。VideoPoet 也能为影片产生音讯,例如先以模型产生 2 秒短片,并尝试在没有任何文字提示下配上音讯,于是从单一模型就能产生影片和音讯。
▲ VideoPoet 五大功能概述。
VideoPoet 是训练一个自回归语言模型,透过使用多个标记器(用于影片和图片的 MAGVIT V2,以及用于音讯的 SoundStream)学习影片、图片、音讯、文字形式,像是透过文字和图片输入分解、标记,进而产生复杂的影像。
Google 目标希望 VideoPoet 能够“any-to-any”,根据任何提示任意转换,同时也要扩展至文字转成音讯、音讯转成影片、产生影片字幕等功能。
VideoPoet 将许多影像生成功能无缝整合至单一模型,而不是针对不同任务单独训练模型,特别在产生有趣影片和高品质动作上,展现出大型语言模型具高度竞争力的影像生成品质。
▲ 开发团队制作一部由 VideoPoet 产生不同短影音组合而成的介绍影片。
(图片来源:Google Research Blog)
▼

特别声明 本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。