苹果 AI 研究再现成果,发表 30B 参数多模态模型 MM1

苹果 AI 研究再现成果,发表 30B 参数多模态模型 MM1

苹果的研究人员建构一个包含多达 300 亿参数的多模态模型 MM1,由稠密模型和混合专家模型(Mixture of Experts Models,MoE)变体所组成,可在视觉任务类型与 OpenAI GPT-4V、Google Gemini 竞争。

上周一篇主题为《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》的论文上传至 arXiv.org,展示如何仔细组合不同类型的训练资料和模型架构,在一系列 AI 基准测试实现最先进的性能。

“我们证明,对于大规模多模态预训练,使用图像-标题、交错的图像-文字和纯文字资料的混合组合,对于在多个基准测试实现最先进的少量样本学习结果相当重要”,研究人员表示,透过涵盖视觉和语言资讯的多样化资料组训练模型,MM1 模型在图像字幕、视觉问题回答和自然语言推理等任务上能有出色表现。

研究人员还发现,图像编码器的选择和输入图像的解析度对模型性能有重大影响。“研究表明,图像编码器以及图像解析度和图像 token 计算具有重大影响,而视觉语言连接器设计相比之下微不足道”,研究人员表示,继续扩大和改进这些多模态模型的视觉成分将是进一步释放性能的关键。

多达 300 亿参数的 MM1 模型表现出强大的上下文学习能力,能够使用少量的关联思考(chain-of-thought,CoT)提示对多个输入图像进行多步骤推理,这也代表多模态模型可望解决需要基础语言理解以及复杂、开放形式的问题。

面对重大科技变革,苹果一向是追随者,而非先行者。MM1 研究发表之际,苹果持续增加 AI 投资,试图追赶微软、Google、亚马逊等竞争对手,这几家公司将生成式 AI 整合至产品,在现今 AI 发展处于领先地位。

据传苹果正在开发一个名为“Ajax”的大型语言模型框架,以及一个内部称为“Apple GPT”的聊天机器人,希望将这些技术整合至 Siri、讯息、Apple Music 以及其他应用程式和服务中。比方说,与 AI 进行对话并完成任务,自动产生个人化音乐播放清单,或者协助开发者编写程式码。

包含 MM1 以及近期研究成果可见,苹果拥有取得领先进展的人才和资源,但在 AI 军备竞赛不断升级,苹果如何追上竞争对手,有待深入观察。值得一提的是,今年全球开发者大会(Worldwide Developers Conference,WWDC 2024)将是重要观察点,市场预期苹果将会公开 AI 计划。

  • Apple researchers achieve breakthroughs in multimodal AI as company ramps up investments
  • New Apple AI training method retains privacy, and could make a future Siri more flexible
  • Apple debuts its MM1 multimodal AI model with rich visual capabilities

(首图来源:shutterstock)

延伸阅读:

  • 苹果发表全新文字生成动画 AI 模型 Keyframer
  • AI 视觉界的突破,探索苹果 AIM 模型的未来潜力
  • AI 竞赛苹果不缺席,研究人员低调发表多模态“雪貂”模型
  • 苹果不忍了!推出专为 Apple Silicon 设计的 MLX 机器学习框架
  • 苹果传测试“Apple GPT”,秘密开发生成式 AI 工具

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。