AI进化升级！Meta开源多模态AI模型ImageBind，跨六种类型数据

AI教程 1天前 0

▼

当我们人类从世界获取信息时，天生会使用多种感官。例如，看到繁忙的街道，听到汽车引擎的声音，闻到食物的气味，尝到美食的味道，感受物体的温度和速度等。

而人工智能的目标，就是使用机器模拟人类智能，帮助人类完成不同的任务和目标，把人类从枯燥沉重的工作中解放出来，让人真正成为人。

AI能力的进化，从过往单项的语音识别、图像识别、文本理解等的感知能力，来到了认知能力-AI大模型时代。

其中，各种AI绘画工具是文字生成图像，ChatGPT是文本对话系统，GPT-4利用插件实现了初步的多模态能力。

而在今天，多模态AI再次升级，Meta公司发布了一个全新的开源AI模型 ImageBind，该模型能够将多种数据流，包括文本、音频、视觉（图像/视频）、温度、深度和IMU数据（速度、角速度等）等整合在一起。

ImageBind，使机器更接近人类，同时、整体和直接地从许多不同形式的信息中学习的能力——不需要明确监督（组织和标记原始数据）。

ImageBind 使机器具备全面的理解力，将照片中的对象与它们的声音、3D 形状、它们的冷暖程度以及它们的移动方式联系起来。

（注：官网、体验、论文和代码地址在文末，可直接前往访问）

在他们的论文中，研究人员表明，仅图像配对数据就足以对齐六种模态，从而允许模型将内容链接到不同模态，而无需直接将它们一起观察。这使其他 AI 模型无需强化训练即可掌握新模式。

↑通过将六种模态嵌入对齐到一个公共空间，跨模态检索未同时观察到的不同类型的内容，添加来自不同模态的嵌入以自然地组合它们的语义，以及通过音频到图像的生成使用音频嵌入和预训练的 DALLE-2 解码器来处理 CLIP 文本嵌入。

同时，基于 ImageBind 的跨模态交流能力，其每一个模态能力的上升，也将带动另一个模态的进步，进而达到一种类似滚雪球的效果。

为了验证这一点，MetaAI 技术团队也做了基准测试，发现 ImageBind 在音频和深度方面要明显优于其它的专业模型，这源自于 AI 从其它模态吸收与总结的经验。

↑基于基准测试，ImageBind 在音频和深度方面优于专业模型

通用人工智能的未来

虽然该模型目前只是一个研究项目，还没有直接的消费者或实际应用，但它展示了未来生成式人工智能系统的可能性，这些系统能够创造出沉浸式、多感官的体验。不得不说，虽然Meta在元宇宙方面步履蹒跚，但是在AI领域，使用开源模式，重新找回了自己的地位。OpenAI和谷歌越来越封闭，而Meta越来越开放，而所有这些多模态AI模型的开源，将会反过来促进元宇宙的发展。ImageBind 能够使用多种模式进行输入查询并检索其他模式的输出，为创作者展示了新的可能性。

当你举起手机，录制一个海边日落的视频时，AI 便能自动根据视频内容来生成文案和字幕，并匹配上合适的背景音乐，创造身临其境的体验。在 VR 和 AR 游戏中，用户也可以通过多种语音、手势和头部动作等方式与游戏角色进行交互，增强游戏的互动性和沉浸感。

虽然目前 ImageBind 只有六种模态，但随着更多感官功能的集成，比如嗅觉、触觉，AI 模型的能力将会愈加强大，AIGC 行业也将迎来翻天覆地的变化。该项目的横空出世，将为 AIGC 技术带来更为广泛的应用场景，一大波更为有趣、实用的 AI 项目也即将来袭。

不得不说，属于创作者和开发者的时代来了。我们距离通用人工智能的到来，又近了一步。

如有兴趣，可前往官网体验：

1.官网：https://imagebind.metademolab.com/

2.体验地址：

https://imagebind.metademolab.com/demo

3.论文：

https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf

4.GitHub代码：

https://github.com/facebookresearch/ImageBind

我会持续分享人工智能领域的新产品、新技术和新动态，欢迎关注~

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

ImageBind

通用人工智能的未来

相关文章