AI进化升级!Meta开源多模态AI模型ImageBind,跨六种类型数据

当我们人类从世界获取信息时,天生会使用多种感官。例如,看到繁忙的街道,听到汽车引擎的声音,闻到食物的气味,尝到美食的味道,感受物体的温度和速度等。

而人工智能的目标,就是使用机器模拟人类智能,帮助人类完成不同的任务和目标,把人类从枯燥沉重的工作中解放出来,让人真正成为人。

AI能力的进化,从过往单项的语音识别、图像识别、文本理解等的感知能力,来到了认知能力-AI大模型时代。

其中,各种AI绘画工具是文字生成图像,ChatGPT是文本对话系统,GPT-4利用插件实现了初步的多模态能力。

而在今天,多模态AI再次升级,Meta公司发布了一个全新的开源AI模型 ImageBind,该模型能够将多种数据流,包括文本、音频、视觉(图像/视频)、温度、深度和IMU数据(速度、角速度等)等整合在一起。
图片

ImageBind,使机器更接近人类,同时、整体和直接地从许多不同形式的信息中学习的能力——不需要明确监督(组织和标记原始数据)。

ImageBind 使机器具备全面的理解力,将照片中的对象与它们的声音、3D 形状、它们的冷暖程度以及它们的移动方式联系起来。

(注:官网、体验、论文和代码地址在文末,可直接前往访问)

在他们的论文中,研究人员表明,仅图像配对数据就足以对齐六种模态,从而允许模型将内容链接到不同模态,而无需直接将它们一起观察。这使其他 AI 模型无需强化训练即可掌握新模式。

图片

↑通过将六种模态嵌入对齐到一个公共空间,跨模态检索未同时观察到的不同类型的内容,添加来自不同模态的嵌入以自然地组合它们的语义,以及通过音频到图像的生成使用音频嵌入和预训练的 DALLE-2 解码器来处理 CLIP 文本嵌入。

同时,基于 ImageBind 的跨模态交流能力,其每一个模态能力的上升,也将带动另一个模态的进步,进而达到一种类似滚雪球的效果。

为了验证这一点,MetaAI 技术团队也做了基准测试,发现 ImageBind 在音频和深度方面要明显优于其它的专业模型,这源自于 AI 从其它模态吸收与总结的经验。

图片

↑基于基准测试,ImageBind 在音频和深度方面优于专业模型

通用人工智能的未来

虽然该模型目前只是一个研究项目,还没有直接的消费者或实际应用,但它展示了未来生成式人工智能系统的可能性,这些系统能够创造出沉浸式、多感官的体验。不得不说,虽然Meta在元宇宙方面步履蹒跚,但是在AI领域,使用开源模式,重新找回了自己的地位。OpenAI和谷歌越来越封闭,而Meta越来越开放,而所有这些多模态AI模型的开源,将会反过来促进元宇宙的发展。ImageBind 能够使用多种模式进行输入查询并检索其他模式的输出,为创作者展示了新的可能性。

当你举起手机,录制一个海边日落的视频时,AI 便能自动根据视频内容来生成文案和字幕,并匹配上合适的背景音乐,创造身临其境的体验。在 VR 和 AR 游戏中,用户也可以通过多种语音、手势和头部动作等方式与游戏角色进行交互,增强游戏的互动性和沉浸感。

虽然目前 ImageBind 只有六种模态,但随着更多感官功能的集成,比如嗅觉、触觉,AI 模型的能力将会愈加强大,AIGC 行业也将迎来翻天覆地的变化。该项目的横空出世,将为 AIGC 技术带来更为广泛的应用场景,一大波更为有趣、实用的 AI 项目也即将来袭。

不得不说,属于创作者和开发者的时代来了。我们距离通用人工智能的到来,又近了一步。

如有兴趣,可前往官网体验:

1.官网:https://imagebind.metademolab.com/

2.体验地址

https://imagebind.metademolab.com/demo

3.论文:

https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf

4.GitHub代码:

https://github.com/facebookresearch/ImageBind

我会持续分享人工智能领域的新产品、新技术和新动态,欢迎关注~

AI进化升级!Meta开源多模态AI模型ImageBind,跨六种类型数据

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。