Meta 推出 Llama 2 Long 模型,处理长指令表现更佳

Meta 推出 Llama 2 Long 模型,处理长指令表现更佳

Meta 加紧开发 AI 技术,Llama 2 就是主力大型语言模型产品,最近推出 Llama 2 Long,以 Llama 2 为基础提升长文本处理效能,据称部分应用表现甚至比 Anthropic Claude 2 和 OpenAI GPT-3.5 Turbo 更优秀。

Meta 最近于 arXiv 发表论文,提及新模型 Llama 2 Long,据称是“透过 Llama 2 持续预训练,并在向上采样(Upsample)长文本资料库用更长训练序列改善”版本,可接受高达 32,768 个 Token 指令输入。以长文本指令测试,表现比 GPT-3.5 Turbo(最多 16,000 字)及 Claude 2(最多 100,000 字)更佳。

Meta 论文表示,透过真人回馈的强化学习(RLHF),也就是真人监督下奖励正确答案,并使用 Llama 2 chat 自己产生的合成数据,提升 Llama 2 Long 于常见 LLM 应用的表现,包括编码、数学、语言理解、常识推理及回答用户问题等。不过架构与 Llama 2 没有太大不同,只是对应更长指令做必要小修改。结果是,以开源大型语言模型来说,表现已相当优秀,难怪开源 AI 开发社群对这没有大肆宣传的消息拍手叫好。

  • Meta quietly unveils Llama 2 Long AI that beats GPT-3.5 Turbo and Claude 2 on some tasks

(本文由 Unwire Pro 授权转载;首图来源:Meta)

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。