AI 竞赛苹果不缺席，研究人员低调发表多模态“雪貂”模型

AI与大数据 8小时前 0

▼

苹果和美国哥伦比亚大学研究人员在今年 10 月悄悄推出开源多模态大型语言模型（Multimodal Large Language Model，MLLM），这项研究命名为“Ferret”（中文为“雪貂”），可以辨识图像区域内的元素以回应查询，创造更多应用可能性。

Ferret 10 月在 GitHub 推出时没有任何公告或大肆宣传，因此并未引起关注，苹果 AI 和机器学习研究科学家 Zhe Gan 在 10 月一则推文解释 Ferret 用途。

简而言之，Ferret 可以检查图像上绘制的区域，确认对使用者查询有用的元素，辨识它并在检测到的元素周围描绘边界。然后，它可以使用被辨识的元素做为查询一部分，以典型方式对提问进行回应。比方说，标记出图像中的某一只动物，询问大型语言模型该动物是什么，它可以确认动物物种以及使用者指的是群体中哪一只动物，它可以使用图像检测到的其他项目以及提示上下文回应查询。

值得一提的是，发表在 GitHub 上的内容还谈道，Ferret 是以 8 个具有 80GB 记忆体的 NVIDIA A100 GPU 进行训练。

Introducing Ferret, a new MLLM that can refer and ground anything anywhere at any granularity.
https://t.co/gED9Vu0I4y
1⃣ Ferret enables referring of an image region at any shape
2⃣ It often shows better precise understanding of small image regions than GPT-4V (sec 5.6) pic.twitter.com/yVzgVYJmHc

— Zhe Gan (@zhegan4) October 12, 2023

▲ Zhe Gan 解释 Ferret 用途。

尽管一开始没有获得太多关注，但这款开源模型对 AI 研究人员而言相当重要，Bart De Witte 经营有关 AI 医学方面的非营利组织，他近日在 X 平台写下错过 Ferret 发表的推文，更称“证明苹果致力于有影响力的 AI 研究”。这也表明苹果愿意开放部分 AI 研究和工作，而非一贯采取保密、封闭立场。

开源的 Ferret 可应用在研究用途，现阶段还无法商业化，然而苹果参与其中研究，未来总有可能以某种方式应用到苹果产品或服务中。

近来随着 Mistral 开源新模型、Google Gemini 模型应用在 Pixel 手机等受到关注，有关大型语言模型支援小型装置应用的讨论越来越多。事实上，苹果将大型语言模型部署在 iPhone 已取得重大突破，该公司近日有两篇研究论文，介绍了 3D 头像和高效语言模型推理的新技术，允许复杂 AI 系统在 iPhone、iPad 等装置上运作，未来苹果新机在 AI、机器学习应用将有更多可能性。

Apple quietly released an open source multimodal LLM in October

（首图来源：Flickr/Eric Wstenhagen CC BY 2.0）

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

相关文章