Stability AI 全新 FreeWilly 语言模型以人工生成数据训练

Stability AI 全新 FreeWilly 语言模型以人工生成数据训练

大型语言模型的开发需要大量数据,其中耗用的能源以及数据来源的问题,令人担心未来发展的可持续性。Stability AI 最近公布全新的 FreeWilly 模型,利用更少、甚至是人工生成的数据来训练,验证了另一种开发方式的可能性。

Stability AI 新推出的 FreeWilly1 和 FreeWilly2 模型,使用 Meta 的 LLaMA 和 LLaMA 2 开源模型为基础,利用更小型的资料集进行训练,当中更加入了不少人工生成的数据。这两个模型都是“非商业许可”授权,也就是旨在协助人工智慧社群研究而开发。

FreeWilly1 和 FreeWilly2 模型所使用的训练资料集只有 60 万个资料点,因此训练成本更低,能源消耗自然也减少,同时其推理和语言理解能力,甚至在法律和数学等专业范畴上都有很好的表现,部分亦超过 GPT-3.5 模型的成绩。这次两个新模型显示了即使利用人工生成的数据来进行训练,也可以保持不错的效果,而且能够避免使用受版权保护的内容(当然是要在人工生成数据使用的模型同时没有用相关内容做训练的情况下)。

Stability AI 团队表示:“我们对这些模型将为 AI 社群带来的无限可能性,以及可以带来的全新应用感到兴奋。”他们希望这两个模型可以做为开放存取大型语言模型,让 AI 开发社群进一步了解自然语言处理,并利用来进行更复杂的工序。

  • Stability AI unveils new FreeWilly language models trained using minimal — and highly synthetic — data

(本文由 Unwire Pro 授权转载;首图来源:Stability AI)

延伸阅读:

  • 惹众怒!数千名作家发声:生成式 AI 也得付版权费

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。