AI 生成更接近人类感知,Meta 开源新模型 ImageBind

AI 生成更接近人类感知,Meta 开源新模型 ImageBind

Meta 宣布开源新的 AI 模型,可将多种不同方式的数据资料连结在一起,未来可望创造身临其境的多种感官体验。

Meta 开源的新模型 ImageBind,是第一个能够一次从 6 种不同方式结合资讯的 AI 模型。核心概念是将 6 种类型的数据资料连结到单一的 embedding space,包括视觉资料(图片和影片的形式)、热(像是红外线影像)、文字、音讯、深度资讯,以及最耐人寻味的 IMU(Inertial Measurement Unit,惯性测量单元)读数。

AI 生成更接近人类感知,Meta 开源新模型 ImageBind AI与大数据 图2张

ImageBind 模型的概念架构。(Source:Meta AI

这听起来有点抽象,但正是这个概念支撑起近来生成式 AI 的蓬勃发展。

比方说,Midjourney、Stable Diffusion、DALL-E 等文字转成图片的 AI 工具,在模型训练阶段就将文字和图片连结在一起,它们在视觉资料中寻找模式,同时将资讯和图片描述连结在一起。这就是这些 AI 工具能够根据用户的文字提示产生图片的原因,许多同样以文字提示产生影片或音讯的 AI 工具也是如此。

在这概念下,未来的 AI 系统统能以同样的模式交叉引用数据资料。比方说,想像有个新的虚拟实境装置,它不仅可以产生声音、视觉影像,还能产生物理环境中的动作感受。当你想要模拟一趟海上之旅,虚拟实境系统不仅让你置身在一艘船上,背景有海浪声,还会让你感受脚下的甲板摇晃、吹来凉爽的海风等等。

Meta 认为其他感官的数据资料,未来可望加入模型当中,例如触摸、口语、气味或者大脑 fMRI(功能性磁振造影)等。

虽然 ImageBind 只是 Meta 旗下一项专案,还没有具体应用成果,却指出生成式 AI 未来一大发展方向,同时对应到 Meta 重金投入的虚拟实境、混合实境以及元宇宙等愿景。

ImageBind 的研究不仅很有意思,Meta 更是坚定站在开源阵营当中,相较于 OpenAI、Google 等公司有不同做法。ImageBind 也延续 Meta 既有策略,向开发者和研究人员公开研究成果。

  • Meta open-sources multisensory AI model that combines six types of data

(首图来源:City vector created by vectorpocket – www.freepik.com)

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。