AI进化升级!Meta开源多模态AI模型ImageBind,跨六种类型数据
▼
当我们人类从世界获取信息时,天生会使用多种感官。例如,看到繁忙的街道,听到汽车引擎的声音,闻到食物的气味,尝到美食的味道,感受物体的温度和速度等。
而人工智能的目标,就是使用机器模拟人类智能,帮助人类完成不同的任务和目标,把人类从枯燥沉重的工作中解放出来,让人真正成为人。
AI能力的进化,从过往单项的语音识别、图像识别、文本理解等的感知能力,来到了认知能力-AI大模型时代。
其中,各种AI绘画工具是文字生成图像,ChatGPT是文本对话系统,GPT-4利用插件实现了初步的多模态能力。
而在今天,多模态AI再次升级,Meta公司发布了一个全新的开源AI模型 ImageBind,该模型能够将多种数据流,包括文本、音频、视觉(图像/视频)、温度、深度和IMU数据(速度、角速度等)等整合在一起。
ImageBind,使机器更接近人类,同时、整体和直接地从许多不同形式的信息中学习的能力——不需要明确监督(组织和标记原始数据)。
ImageBind 使机器具备全面的理解力,将照片中的对象与它们的声音、3D 形状、它们的冷暖程度以及它们的移动方式联系起来。
(注:官网、体验、论文和代码地址在文末,可直接前往访问)
在他们的论文中,研究人员表明,仅图像配对数据就足以对齐六种模态,从而允许模型将内容链接到不同模态,而无需直接将它们一起观察。这使其他 AI 模型无需强化训练即可掌握新模式。
↑通过将六种模态嵌入对齐到一个公共空间,跨模态检索未同时观察到的不同类型的内容,添加来自不同模态的嵌入以自然地组合它们的语义,以及通过音频到图像的生成使用音频嵌入和预训练的 DALLE-2 解码器来处理 CLIP 文本嵌入。
同时,基于 ImageBind 的跨模态交流能力,其每一个模态能力的上升,也将带动另一个模态的进步,进而达到一种类似滚雪球的效果。
↑基于基准测试,ImageBind 在音频和深度方面优于专业模型
通用人工智能的未来
虽然该模型目前只是一个研究项目,还没有直接的消费者或实际应用,但它展示了未来生成式人工智能系统的可能性,这些系统能够创造出沉浸式、多感官的体验。不得不说,虽然Meta在元宇宙方面步履蹒跚,但是在AI领域,使用开源模式,重新找回了自己的地位。OpenAI和谷歌越来越封闭,而Meta越来越开放,而所有这些多模态AI模型的开源,将会反过来促进元宇宙的发展。ImageBind 能够使用多种模式进行输入查询并检索其他模式的输出,为创作者展示了新的可能性。
当你举起手机,录制一个海边日落的视频时,AI 便能自动根据视频内容来生成文案和字幕,并匹配上合适的背景音乐,创造身临其境的体验。在 VR 和 AR 游戏中,用户也可以通过多种语音、手势和头部动作等方式与游戏角色进行交互,增强游戏的互动性和沉浸感。
虽然目前 ImageBind 只有六种模态,但随着更多感官功能的集成,比如嗅觉、触觉,AI 模型的能力将会愈加强大,AIGC 行业也将迎来翻天覆地的变化。该项目的横空出世,将为 AIGC 技术带来更为广泛的应用场景,一大波更为有趣、实用的 AI 项目也即将来袭。
不得不说,属于创作者和开发者的时代来了。我们距离通用人工智能的到来,又近了一步。
如有兴趣,可前往官网体验:
1.官网:https://imagebind.metademolab.com/
2.体验地址:
https://imagebind.metademolab.com/demo
3.论文:
https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf
4.GitHub代码:
https://github.com/facebookresearch/ImageBind
我会持续分享人工智能领域的新产品、新技术和新动态,欢迎关注~
▼
特别声明 本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。