AI 竞赛苹果不缺席,研究人员低调发表多模态“雪貂”模型
▼
苹果和美国哥伦比亚大学研究人员在今年 10 月悄悄推出开源多模态大型语言模型(Multimodal Large Language Model,MLLM),这项研究命名为“Ferret”(中文为“雪貂”),可以辨识图像区域内的元素以回应查询,创造更多应用可能性。
Ferret 10 月在 GitHub 推出时没有任何公告或大肆宣传,因此并未引起关注,苹果 AI 和机器学习研究科学家 Zhe Gan 在 10 月一则推文解释 Ferret 用途。
简而言之,Ferret 可以检查图像上绘制的区域,确认对使用者查询有用的元素,辨识它并在检测到的元素周围描绘边界。然后,它可以使用被辨识的元素做为查询一部分,以典型方式对提问进行回应。比方说,标记出图像中的某一只动物,询问大型语言模型该动物是什么,它可以确认动物物种以及使用者指的是群体中哪一只动物,它可以使用图像检测到的其他项目以及提示上下文回应查询。
值得一提的是,发表在 GitHub 上的内容还谈道,Ferret 是以 8 个具有 80GB 记忆体的 NVIDIA A100 GPU 进行训练。
Introducing Ferret, a new MLLM that can refer and ground anything anywhere at any granularity.
https://t.co/gED9Vu0I4y
1⃣ Ferret enables referring of an image region at any shape
2⃣ It often shows better precise understanding of small image regions than GPT-4V (sec 5.6) pic.twitter.com/yVzgVYJmHc— Zhe Gan (@zhegan4) October 12, 2023
▲ Zhe Gan 解释 Ferret 用途。
尽管一开始没有获得太多关注,但这款开源模型对 AI 研究人员而言相当重要,Bart De Witte 经营有关 AI 医学方面的非营利组织,他近日在 X 平台写下错过 Ferret 发表的推文,更称“证明苹果致力于有影响力的 AI 研究”。这也表明苹果愿意开放部分 AI 研究和工作,而非一贯采取保密、封闭立场。
开源的 Ferret 可应用在研究用途,现阶段还无法商业化,然而苹果参与其中研究,未来总有可能以某种方式应用到苹果产品或服务中。
近来随着 Mistral 开源新模型、Google Gemini 模型应用在 Pixel 手机等受到关注,有关大型语言模型支援小型装置应用的讨论越来越多。事实上,苹果将大型语言模型部署在 iPhone 已取得重大突破,该公司近日有两篇研究论文,介绍了 3D 头像和高效语言模型推理的新技术,允许复杂 AI 系统在 iPhone、iPad 等装置上运作,未来苹果新机在 AI、机器学习应用将有更多可能性。
- Apple quietly released an open source multimodal LLM in October
(首图来源:Flickr/Eric Wstenhagen CC BY 2.0)
▼
特别声明 本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。