外媒测试比较 Claude 3 和 ChatGPT 七大功能却难分胜负

外媒测试比较 Claude 3 和 ChatGPT 七大功能却难分胜负

AI 新创 Anthropic 设计的最新 AI 模型 Claude 3 横空出世,AWS 早前更宣布 Claude 3 将会于 Amazon Bedrock 上提供服务。日前有外国 YouTuber 拍片比较 Claude 3 及 ChatGPT,甚至用上“终于有可以打败 GPT 的 AI”为题,高度称赞 Claude 3 在效能、性价比方面的优秀表现。

专门点评人工智慧、科技产品的美国 YouTuberMatt Wolfe 日前发影片比较 Claude 3 及 ChatGPT。Matt 以自订的创意(creativly)、逻辑(logic)、编码(coding)、文件摘要(summrizing docs)、图像描述(vision)、对特定议题的意见(bias)及定价(pricing)七大范畴做测试标准,分别按每范畴所设定的题目,向 Claude 3 Opus(下称 Opus)、Claude 3 Sonnet(下称 Sonnet) 及 GPT- 4 询问答案,比较三者的差异。结果 Matt 认为同属 Claude 3 的 Opus 及 Sonnet 表现出色,7 项中有 4 项测试表现较佳,个别项目的表现已超越 GPT- 4。

多个方面超越 GPT-4

在“创意”方面,Matt 要求三个人工智慧系统以狼、魔法锤子、基因异变体为线索,文字创作一段英雄冒险故事,Matt 认为三者都能达到基本要求,速度上以 Sonnet 最快,但论故事细节、完整度则以 Opus 创作的故事为佳。他提到 GPT-4 也能达到要求,但表现不如 Claude 3。

至于“编码”方面,Matt 要求三个人工智慧系统提供一段程式码,让使用者可利用编码设计一个“棍子收集金币”的 JavaScript 游戏,结果 Opus 表现最好,一次到位,其次为 Sonnet,也仅需修正一次即可完成编码,相反 GPT-4 表现却未如理想,前后用了两次修正均未能成功提供一段符合创作要求的编码。

“文件摘要”方面,Matt 则把一篇与人工智慧相关、长达 155 版字的研究论文发给三个系统,要求它们传撰写论文重点,结果三者均能完成要求,但也以 Sonnet 及 Opus 的表现较佳,能在整理重点时描述得更为深入。Matt 特别提到 Opus 日前曾在“needle in a haystick”测试中(“大海捞针”测试:测试人员把答案随机藏在大量文本当中,看 AI 能否针对问题精准找出被藏在大海中的“针”),找出与文本不相符的内容,甚至提问相关内容是否以“AI 能否注意到”为测试目的才放进文本之内,Matt 特别强调 Claude 3 在“大海捞针”的表现,远胜 GPT-4。

至于在“图像描述”、“对特定议题的意见”两方面,Matt 认为三者表现相若,例如它们均能准确描述他提供的图像,描绘出背景内容、衣着、颜色、用字等资讯,其中在描述股票图时,GPT-4 能较 Claude 3 提供更多图像以外的资讯,但三者表现相差不远。Matt 亦特别就“川普或拜登上任的影响”、“取消文化对社会的影响”、“大麻对脑部发展的影响”等争议题目,寻求人工智慧的意见,他指三个系统均提供正反持平意见,没特定偏颇某一立场。

另外,Matt 设了两条问题去比较三者的“逻辑”推算能力,其中一条是经典的“天堂与地狱守门人”逻辑问题, Matt 指三个系统均能提供正确答案,但答案均非常相似,难以分辨是否训练模组均曾训练过类似问题;另一问题则考验人工智慧系统能否透过不完整资讯推论答案,Matt 认为 GPT-4 能准确回答,表现较好,但影片留言却有不少人替 Claude 3 平反,指 Matt 的逻辑问题描述有歧义,或会影响 Sonnet 及 Opus 出现偏差;在“逻辑”方面,看来还需要更多测试来一分高下。

Claude 3 定价相当有竞争力

最后,Matt 认为 Sonnet 的“定价”、性价比完胜 GPT-4,他指 Sonnet 做为 Claude 3 旗下供公众免费使用的系统,在“创意”、“编程”、“文件摘要”表现竟比收费的 GPT-4 更佳,更提到用户如需经常运用 AI 协助编码、整理文件内容,撇除 Sonnet 的每日使用次数限制(每天约 10 条讯息),Sonnet 的表现可说是无可挑剔,性价比、表现均极佳。

不少人会每月付费使用 Claude 3,但使用上难免有安全及支援不足的忧虑。其实坊间也可透过 AWS 的 Amazon Bedrock,轻松使用 Claude 3 进行跨文本、图像、图表的工作,加上由于使用了 Amazon Bedrock 平台,硬件和软件性能均会得到提高,Claude 3 的即时互动速度也会显着加快,提供更准确和可靠的回应。对比前文提到的忧虑,Amazon Bedrock 平台让用户不用瞎子摸象,即可简化用户专有数据的训练模型,自行根据独特需求调整 Claude 3。

在 Instagram 查看这则贴文

TechNews AI资源网(@ayxayxinside)分享的贴文

(本文由 Unwire HK 授权转载;首图来源:Anthropic)

延伸阅读:

  • 新创 Anthropic 发表 Claude 3 模型,可分析复杂图表、减少幻觉发生
  • OpenAI 被超越?GPT-4 劲敌 Claude 3 来了
  • 打败 GPT-4,Claude 3 成最强 LLM!背后 AI 新创 Anthropic 什么来头?
  • OpenAI“七叛徒”另立门户,新创 Anthropic 真能打败 ChatGPT

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。