Meta 推出 Llama 2 Long 模型，处理长指令表现更佳

AI与大数据 17小时前 0

▼

Meta 加紧开发 AI 技术，Llama 2 就是主力大型语言模型产品，最近推出 Llama 2 Long，以 Llama 2 为基础提升长文本处理效能，据称部分应用表现甚至比 Anthropic Claude 2 和 OpenAI GPT-3.5 Turbo 更优秀。

Meta 最近于 arXiv 发表论文，提及新模型 Llama 2 Long，据称是“透过 Llama 2 持续预训练，并在向上采样（Upsample）长文本资料库用更长训练序列改善”版本，可接受高达 32,768 个 Token 指令输入。以长文本指令测试，表现比 GPT-3.5 Turbo（最多 16,000 字）及 Claude 2（最多 100,000 字）更佳。

Meta 论文表示，透过真人回馈的强化学习（RLHF），也就是真人监督下奖励正确答案，并使用 Llama 2 chat 自己产生的合成数据，提升 Llama 2 Long 于常见 LLM 应用的表现，包括编码、数学、语言理解、常识推理及回答用户问题等。不过架构与 Llama 2 没有太大不同，只是对应更长指令做必要小修改。结果是，以开源大型语言模型来说，表现已相当优秀，难怪开源 AI 开发社群对这没有大肆宣传的消息拍手叫好。

Meta introduces LLAMA 2 Long

– context windows of up to 32,768 tokens
– the 70B variant can already surpass gpt-3.5-turbo-16k’s overall performance on a suite of long-context tasks https://t.co/uzsVslLUkX pic.twitter.com/aXyPmeLXMo

— AK (@_akhaliq) September 29, 2023

Meta quietly unveils Llama 2 Long AI that beats GPT-3.5 Turbo and Claude 2 on some tasks

（本文由 Unwire Pro 授权转载；首图来源：Meta）

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

相关文章