有人帮忙 OpenAI 做出 GPT-5 了?

有人帮忙 OpenAI 做出 GPT-5 了?

从理论到实践,大语言模型 LLM 完全体会长成什么样子?

很多人会说是基于自然语言深刻理解,但这点OpenAI GPT系列已做得很好。也有人讨论AI Agent实践可能性,但也没有脱离自然语言范畴。生成式AI有两方面,大语言模型是其一,着重理解人类语言,更广泛的AIGC应用指以扩散模型为代表的跨模态转换能力,也就是文生图、文生影片等。

若结合两者?许多人眼中,这就是下一代GPT,或说GPT完全体。最近出现在论文预印网arXiv的新加坡国立大学计算机学院论文引起人们注意,因设计出NExT-GPT模型试图全面模态转换。有人帮忙 OpenAI 做出 GPT-5 了? AI与大数据 图2张

(Source:arXiv,下同)

从上图可见,NExT-GPT模型输入和输出端都能产生文字、图片、音讯和视讯等多种形式,输出端除了文字均使用对应不同模组的扩散模型。输入和输出转换靠大模型执行。NExT-GPT模型样式其实不仅符合人们试图把生成式AI两股力量:大语言模型和扩散模型结合的趋势,甚至某种程度也符合人类直觉:大脑正是靠多模组自由转换和互动理解认识世界。

所谓多模组转换与大语言模型结合,并不是简单用提示词帮两者“搭桥”,而是真正把多模组数据(向量)与语言数据结合,过程畅通后,等于大模型不仅学习理解人类语言,还能扩大至更多模组,成功的话将让AI飞上天。

NExT-GPT结构一览:两个突破点

据说Google和OpenAI GPT5都在进行类似研究。之前先来看看NExT-GPT模型怎么做到。NExT-GPT模型是把大模型与多模组搭配器及扩散模型解码器连起来,仅投影层调整1%参数。论文创新处在创建名为MosIT的模组切换调整指令,以及专门针对跨模组转换的资料库。

NExT-GPT由三层组成,第一层是各种成熟编码器编码各种模组输入,然后透过投影层映射成大语言模型能理解形式。第二层是开源大语言模型负责推理。大语言模型不仅会产生文本,还会产生独特标记,指令解码层输出什么模组内容。第三层将指令讯号经投影,对应不同编码器产生内容。

为了降低成本,NExT-GPT利用现成编码器和解码器,最大限度减轻不同模组转换时的“杂讯”,NExT-GPT利用ImageBind,是跨模组统一编码器,这样NExT-GPT不需管理太多异构模组编码器,可统一将不同模组投影到大语言模型。

输出阶段,NExT-GPT使用各种成熟模型,包括影像产生Stable Diffusion,视讯产生Zeroscope,以及音讯合成AudioLDM。下图是论文推理过程,可看到文字模式和讯号标记决定模组如何辨识、触发及产生,灰色部分是没有触发的模组选项。有人帮忙 OpenAI 做出 GPT-5 了? AI与大数据 图3张

这涉及不同模组语义理解问题,因此对齐不可少。不过结构较清晰,NExT-GPT对齐很好达成。作者设计三层耦合结构,编码端以大模型为中心对齐,解码端则与指令对齐。对齐放弃让扩散模型与大语言模型执行完整对齐过程,仅用文本条件编码器,最小化大模型模式讯号标记与扩散模型文本的距离后,对齐仅基于纯粹文字,因此量级很轻,大概1%参数需调整。

考虑到需让NExT-GPT具备准确跨模组生成和推理能力,论文还引入MosIT,也就是Modality-switching Instruction Tuning模式切换指令微调,训练基于5千个高品质样本组成的资料库。有人帮忙 OpenAI 做出 GPT-5 了? AI与大数据 图4张

训练过程当然复杂,就不细说了,总之MosIT可重构输入和输出文字,让NExT-GPT理解文字、图像、视讯和音讯各种组合的复杂指令,十分接近人类理解和推理模式。

完全体要来了吗?

目前NExT-GPT还具有许多的弱点,作者在论文中也提到了不少,例如非常容易想到的,四种模态对于真正的多模态完全体大模型来说种类还是有点太少,训练MosIT的数据集的数量同样有限。作者也努力透过不同规模大语言模型让NExT-GPT适应更多场景。

另一个棘手问题更现实。尽管NExT-GPT展现出多模组能力的强大未来,但以扩散模型为代表的AIGC能力水准依然有限,影响整个NExT-GPT的表现。总体多模组AI有非常诱人的前景,因和应用场景及用户需求更紧密吻合,大模型赛道目前热度略下降,多模组AI给人巨大的想像空间。

NExT-GPT为点到点的多模组大模型,已具备多模组AI雏形,论文参数调整对齐及使用MosIT推理能力强化思路让人印象深刻,甚至可说是迈向完全体AI的道路,已经有人踏出了第一步。

(本文由 品玩 授权转载;首图来源:Unsplash)

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。