外媒测试比较 Claude 3 和 ChatGPT 七大功能却难分胜负

AI与大数据 3小时前 0

▼

由 AI 新创 Anthropic 设计的最新 AI 模型 Claude 3 横空出世，AWS 早前更宣布 Claude 3 将会于 Amazon Bedrock 上提供服务。日前有外国 YouTuber 拍片比较 Claude 3 及 ChatGPT，甚至用上“终于有可以打败 GPT 的 AI”为题，高度称赞 Claude 3 在效能、性价比方面的优秀表现。

专门点评人工智慧、科技产品的美国 YouTuberMatt Wolfe 日前发影片比较 Claude 3 及 ChatGPT。Matt 以自订的创意（creativly）、逻辑（logic）、编码（coding）、文件摘要（summrizing docs）、图像描述（vision）、对特定议题的意见（bias）及定价（pricing）七大范畴做测试标准，分别按每范畴所设定的题目，向 Claude 3 Opus（下称 Opus）、Claude 3 Sonnet（下称 Sonnet）及 GPT- 4 询问答案，比较三者的差异。结果 Matt 认为同属 Claude 3 的 Opus 及 Sonnet 表现出色，7 项中有 4 项测试表现较佳，个别项目的表现已超越 GPT- 4。

多个方面超越 GPT-4

在“创意”方面，Matt 要求三个人工智慧系统以狼、魔法锤子、基因异变体为线索，文字创作一段英雄冒险故事，Matt 认为三者都能达到基本要求，速度上以 Sonnet 最快，但论故事细节、完整度则以 Opus 创作的故事为佳。他提到 GPT-4 也能达到要求，但表现不如 Claude 3。

至于“编码”方面，Matt 要求三个人工智慧系统提供一段程式码，让使用者可利用编码设计一个“棍子收集金币”的 JavaScript 游戏，结果 Opus 表现最好，一次到位，其次为 Sonnet，也仅需修正一次即可完成编码，相反 GPT-4 表现却未如理想，前后用了两次修正均未能成功提供一段符合创作要求的编码。

“文件摘要”方面，Matt 则把一篇与人工智慧相关、长达 155 版字的研究论文发给三个系统，要求它们传撰写论文重点，结果三者均能完成要求，但也以 Sonnet 及 Opus 的表现较佳，能在整理重点时描述得更为深入。Matt 特别提到 Opus 日前曾在“needle in a haystick”测试中（“大海捞针”测试：测试人员把答案随机藏在大量文本当中，看 AI 能否针对问题精准找出被藏在大海中的“针”），找出与文本不相符的内容，甚至提问相关内容是否以“AI 能否注意到”为测试目的才放进文本之内，Matt 特别强调 Claude 3 在“大海捞针”的表现，远胜 GPT-4。

至于在“图像描述”、“对特定议题的意见”两方面，Matt 认为三者表现相若，例如它们均能准确描述他提供的图像，描绘出背景内容、衣着、颜色、用字等资讯，其中在描述股票图时，GPT-4 能较 Claude 3 提供更多图像以外的资讯，但三者表现相差不远。Matt 亦特别就“川普或拜登上任的影响”、“取消文化对社会的影响”、“大麻对脑部发展的影响”等争议题目，寻求人工智慧的意见，他指三个系统均提供正反持平意见，没特定偏颇某一立场。

另外，Matt 设了两条问题去比较三者的“逻辑”推算能力，其中一条是经典的“天堂与地狱守门人”逻辑问题， Matt 指三个系统均能提供正确答案，但答案均非常相似，难以分辨是否训练模组均曾训练过类似问题；另一问题则考验人工智慧系统能否透过不完整资讯推论答案，Matt 认为 GPT-4 能准确回答，表现较好，但影片留言却有不少人替 Claude 3 平反，指 Matt 的逻辑问题描述有歧义，或会影响 Sonnet 及 Opus 出现偏差；在“逻辑”方面，看来还需要更多测试来一分高下。

Claude 3 定价相当有竞争力

最后，Matt 认为 Sonnet 的“定价”、性价比完胜 GPT-4，他指 Sonnet 做为 Claude 3 旗下供公众免费使用的系统，在“创意”、“编程”、“文件摘要”表现竟比收费的 GPT-4 更佳，更提到用户如需经常运用 AI 协助编码、整理文件内容，撇除 Sonnet 的每日使用次数限制（每天约 10 条讯息），Sonnet 的表现可说是无可挑剔，性价比、表现均极佳。

不少人会每月付费使用 Claude 3，但使用上难免有安全及支援不足的忧虑。其实坊间也可透过 AWS 的 Amazon Bedrock，轻松使用 Claude 3 进行跨文本、图像、图表的工作，加上由于使用了 Amazon Bedrock 平台，硬件和软件性能均会得到提高，Claude 3 的即时互动速度也会显着加快，提供更准确和可靠的回应。对比前文提到的忧虑，Amazon Bedrock 平台让用户不用瞎子摸象，即可简化用户专有数据的训练模型，自行根据独特需求调整 Claude 3。

在 Instagram 查看这则贴文

TechNews AI资源网（@ayxayxinside）分享的贴文

（本文由 Unwire HK 授权转载；首图来源：Anthropic）

延伸阅读：

新创 Anthropic 发表 Claude 3 模型，可分析复杂图表、减少幻觉发生
OpenAI 被超越？GPT-4 劲敌 Claude 3 来了
打败 GPT-4，Claude 3 成最强 LLM！背后 AI 新创 Anthropic 什么来头？
OpenAI“七叛徒”另立门户，新创 Anthropic 真能打败 ChatGPT？

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

多个方面超越 GPT-4

Claude 3 定价相当有竞争力

延伸阅读：

相关文章