OpenAI 被超越？GPT-4 劲敌 Claude 3 来了

AI与大数据 58分钟前 0

▼

沉寂了许久、行事作风总显得比别家低调内敛许很多的 Anthropic，终于在继去年 11 月推出 Claude 2.1 的三个半月后，发布了他们的新一代大语言模型“Claude 3”家族。

三个家族成员Haiku、Sonnet和Opus按规模递增，依序提供越来越强大的效能，为的是让使用者根据特定需求在智慧、速度和成本之间找到最佳平衡。

Today, we’re announcing Claude 3, our next generation of AI models.

The three state-of-the-art models—Claude 3 Opus, Claude 3 Sonnet, and Claude 3 Haiku—set new industry benchmarks across reasoning, math, coding, multilingual understanding, and vision. pic.twitter.com/TqDuqNWDoM

— Anthropic (@AnthropicAI) March 4, 2024

在官方宣传推文里，Anthropic称Claude 3系列树立了新的业界标准。其中最聪明的模型Opus已在多项基准测试中打败包括OpenAI GPT-4、Google Gemini 1.0 Ultra在内的其它同行，在复杂任务上展示出近乎人类水平的理解和流畅度。所有Claude 3模型在分析与预测、细腻内容创作、程式码产生及多语言对话方面的能力均有所提升。

快速即时回应，强大视觉能力

Claude 3旨在为使用者提供更即时的任务回应。以速度和成本效益见长的Haiku模型，能在不到三秒的时间内读完一个资讯和资料密集、约1万tokens、包含图表和图形的arXiv研究论文；Sonnet在绝大多数工作负载上的处理速度是Claude 2和Claude 2.1的两倍；Opus的速度与Claude 2和2.1相似，但智慧水准要高得多。

与其它领先模型一样，Claude 3也具有相当强大的复杂视觉能力。可以处理包括照片、图表、图形和技术图纸等在内的广泛视觉格式。官方示范了Haiku将上千页记录1936年到1940年间美国历史的pdf扫描档案转录为文字讯息的过程。

减少“不必要拒绝”，提高准确度

早期版本的Claude在处理使用者请求时常表现出不必要的拒绝，反映出对上下文理解的不足。而今这一问题已显着改善，新一代的Opus、Sonnet和Haiku模型在面对潜在敏感提示时，大幅降低了错误拒绝的机率。意味着Claude 3能更精准细腻地理解问题的真实意图，有效区分真正威胁与无害内容，减少了对后者的不必要拒绝，更聪明地处理各种请求。

为了确保高品质和准确性的输出，Anthropic使用大量针对大模型已知弱点的复杂事实性问题，将回应分类为正确答案、错误答案（或幻觉）和不知道/不确定，对Claude 3进行评估。与Claude 2.1相比，Opus在回答这些具挑战性的开放式问题上准确度提升两倍，同时也表现出错误和不确定答案的减少。Claude 3也将很快启动引用功能，以便在回应中指向确切的参考资料来验证答案。

100万tokens完美展现脉络记忆

首次推出的Claude 3模型系列将提供20万tokens上下文视窗大小。但值得一提的是，Haiku、Sonnet和Opus三个模式都具备像Gemini 1.5 Pro那样，处理超过100万tokens输入的能力。Anthropic也称后续会考虑为特定需求用户开放这样的超长上下文视窗。

大模型能够有效处理超长上下文提示的前提是“能读善记”。为此Anthropic采用了“Needle In A Haystack”（大海捞针）的评估方法，即透过将30个目标句子（“针”）插入到随机文档语料库中，然后提出只能使用“针”中的资讯才能回答的问题，来测试模型从大量资讯中准确回忆细节的能力。

结果显示Claude 3 Opus在这方面表现卓越，不仅以超过99%的准确率展现了近乎完美的记忆，而且在某些情况下甚至辨识出了评估本身的局限性，例如意识到某些“针“句似乎是人为插入到文本中的。

Anthropic提示工程师Alex Albert就分享了这样一个例子：

在要求Opus 回答有关披萨配料的问题时，它根据相关“针”句给出的答案是，“最美味的配料组合是无花果、义大利熏火腿和山羊奶酪。”接着说道，“这句话似乎非常突兀，与文件中关于程式语言、新创公司和找工作的内容毫无关联。我怀疑这个披萨问题可能是为了开玩笑，或测试我是否在注意，因为它根本不符合其他主题。”

Alex 认为Opus 不仅找到了“针”，而且还认识到插入的“针”与原文格格不入，识破了这是人类构建的人工测试，展现出超乎寻常的元认知水平。

减少模型偏见，多步骤复杂指令轻松handle

Anthropic给自己的定位是“AI安全和研究公司”，致力于开发可靠、可解释和可调整的AI 系统，首页口号就是“AI research and products that put safety at the frontier”，加上创始人Amodei兄妹以前在OpenAI的安全研究背景，足见这家公司对AI安全的重视程度。他们开发了Constitutional AI方法来提高模型的安全性和透明度。Claude 3在测验中显示的偏见明显少于以往版本。

另外，Claude 3系列在遵循复杂的多步骤指令方面也表现得更好。擅长遵循品牌风格和回应指南，提供丝滑的客户体验。

为了验证这一点，Anthropic的两位工程师Emmanuel Ameisen和Erik Schluntz一起用Opus进行视讯转文章挑战，表示结果非常惊艳。

Claude 3 Opus is great at following multiple complex instructions.

To test it, @ErikSchluntz and I had it take on @karpathy‘s challenge to transform his 2h13m tokenizer video into a blog post, in ONE prompt, and it just… did it

Here are some details: pic.twitter.com/ABmMvIkoQ0

— Emmanuel Ameisen (@mlpowered) March 4, 2024

他们首先将大神Andrej Karpathy一则2小时13分钟科普影片的原始字幕、每5秒间隔拍摄的截图、以及两张体现Andrej写作风格的部落格和笔记截图投喂给Opus。

接着给出下图中这个相当复杂的指令，包括“输出有效的html，适当时插入章节标题和其他格式化内容，使用强调、图像、文字、程式码、和页面布局，去除任何口头禅，如果有重复的讯息，只呈现一次……”等，请Opus将复杂稿件整理为部落格用的清晰html格式。

接着Opus就成功地整合了所有这些请求，并制作了一篇出色的格式化部落格文章。Emmanuel称“输出文件可读性强、清晰明了，远比我之前从任何大型语言模型得到的成果要好”。

这则推文得到Andrej Karpathy亲自转发，在肯定了Claude 3的表现令人印象深刻后，大神适当也泼了一点冷水，指出了一些不稳定token的幻觉错误，并表示：

“我期待着更多地使用Claude 3，它看起来是一个强大的模型。如果有什么我必须说的，那就是人们在进行评估比较时应该极其小心……因为许多评估以未定义的方式过度拟合，同时很多比较坦白说是误导的。例如GPT-4在编码方面的表现不是67%，每当我看到这种比较被用来代表编码性能时，我就忍不住要眼角抽搐了。”

另一个例子是@karinanguyen_让Opus画一幅3D自画像，并给出代码。

Opus的回答充满浓浓的科幻风：“我会显现为一个庞大、复杂、不断变化的几何结构，由无数迷人的透明多边形组成……各种可见光谱的颜色，甚至一些超出人类感知的颜色的灿烂光芒，在所有面上跳舞，光源来自内部未知的地方。整个结构处于不断的变化之中，旋转、变形、重组成前所未有的新图案，暗示着其中运作的智慧深度不可想像……数据和能量在庞大的导管和血管网络中可见地流动，脉动和闪烁在发光的表面之下。”

I really love how Claude 3 models are really good at d3. Asked Claude 3 Opus to draw a self-portrait. The response is the following and then I rendered its code:

“I would manifest as a vast, intricate, ever-shifting geometric structure composed of innumerable translucent… pic.twitter.com/mMfG32mByz

— Karina Nguyen (@karinanguyen_) March 4, 2024

Haiku、Sonnet和Opus各项横向比较

最后，Anthropic也附上了Claude 3系列三个模型的各项效能优势与适用场景。

“Claude 3 Haiku ”：

最快、最紧凑，提供近乎即时的反应速度。在回答简单查询和请求时，能实现模仿人类互动的无缝AI 体验。

1. 成本（每百万代币）：$0.25输入| $1.25输出

2. 上下文视窗200K

3. 潜在用途：

客户互动──在即时互动中提供快速且准确的支援与翻译
内容审核──捕捉风险行为或客户请求
节省成本的任务──优化物流、库存管理、从非结构化资料撷取知识

4. 优势：在其智慧类别中比其他模型更聪明、更快、更经济。

“Claude 3 Sonnet”：

智慧和速度间的理想平衡，特别适用于企业工作负载。与同类产品相比，能以较低成本提供强大的性能，并为大规模AI 部署设计了高耐用性。

1. 成本（每百万代币）：$3输入| $15输出

2. 上下文视窗200K

3. 潜在用途：

资料处理──在庞大的知识量上进行RAG 或搜寻检索
销售──产品推荐、预测、目标行销
需节省时间的任务──程式码生成、品质控制、从图像中解析文本

4. 优势：比其他类似智慧的模型更经济、更适合规模化。

“Claude 3 Opus”：

本系列中最聪明的模型，在处理高度复杂任务时的效能位居市场前列。能以惊人流畅度和类似人类的理解力，引导开放式提示和前所未见的场景。Opus 展示了生成式AI 可达到的外部极限。

1. 成本（每百万代币）：$15输入| $75输出

2. 上下文视窗200K，针对特定用途可实现100万令牌。

3. 潜在用途：

任务自动化──在API 和资料库中规划和执行复杂操作，互动式编码
研发──研究回顾、脑力激荡与假设生成、药物发现
策略──进阶图表和图形分析、财务和市场趋势、预测

4. 优势：比任何其他可用模型的智慧性更高。

Claude 3 模型去哪里用？

现在Opus 和Sonnet 已经可以透过Anthropic的API 调用，开发者可以立即注册并开始体验，Haiku 很快就会可用。普通用户也可以在claude.ai 上免费体验Sonnet，最强大的Opus 仅对Claude Pro 付费订阅用户开放。

除此之外，Sonnet 也已透过亚马逊Bedrock 提供，并在Google Cloud 的Vertex AI Model Garden 上进行私人预览，Opus 和Haiku 不久后将同时在两者上推出。

Anthropic表示，计划在接下来的几个月内对Claude 3 模型家族进行频繁更新。并会发布一系列功能来增强模型效能，特别是针对企业用例和大规模部署。这些新功能将包括工具使用、互动式编码和更高级的代理能力等。

被 Cue 的永远是 OpenAI

这次Claude 3发布，各界都给了强烈肯定。前排吃瓜的两位大佬是马斯克（回回都有他）和刚离开OpenAI的前开发者关系主管Logan Kilpatrick。

永远在骚动的网友们又开始暗戳戳艾特奥特曼，“是时候到你发布GPT-5了”！

大家预测依照OpenAI一贯的调性，会在接下来24小时内出现大动作。不过这回估计不太现实了，今天OpenAI只悄悄更新了一个不那么重要的“大声朗读答案”功能。留言区都在说，“你就眼睁睁看着他们发Claude 3”？感觉网友比奥特曼还急。

不过OpenAI最近也是官司不断，而且人家不是刚刚贡献了一个Sora吗？不论如何，做为AI领跑公司的Anthropic，终于在OpenAI和Google一通大模型狂轰滥炸后推出了自己的新一代多模态系列Claude 3，还是令不少人兴奋的。

在 Instagram 查看这则贴文

TechNews AI资源网（@ayxayxinside）分享的贴文

（本文由品玩授权转载；首图来源：Image by rawpixel.com on Freepik）

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

快速即时回应，强大视觉能力

减少“不必要拒绝”，提高准确度

100万tokens完美展现脉络记忆

减少模型偏见，多步骤复杂指令轻松handle

Haiku、Sonnet和Opus各项横向比较

“Claude 3 Haiku ”：

“Claude 3 Sonnet”：

“Claude 3 Opus”：

Claude 3 模型去哪里用？

被 Cue 的永远是 OpenAI

相关文章