外媒比较 Claude 3 和 ChatGPT　七大范畴测试下胜负难分附Claude3免费体验方式

胡英俊

由AI 初创Anthropic 设计的最新AI 模型Claude 3 横空出世，AWS 早前更宣布Claude 3 将会于Amazon Bedrock 上提供服务。日前就有外国Youtuber 拍片比较Claude 3 及ChatGPT，甚至用上「终于有可以打败GPT 的AI」为题，高度称赞Claude 3 在效能、性价比方面的优秀表现。

专门点评人工智能、科技产品的美国Youtuber Matt Wolfe 日前出片比较Claude 3 及ChatGPT。Matt 以自订的「创意」（creativly）、「逻辑」（logic）、「编码」（coding）、「文件摘要」（summrizing docs）、「图像描述」（vision）、「对特定议题的意见」（bias）及「定价」（pricing）七大范畴作测试标准，分别按每范畴所设定的题目，向Claude 3 Opus（下称Opus）、Claude 3 Sonnet（下称Sonnet）及GPT- 4 询问答案，比较三者的差异。结果Matt 认为同属Claude 3 的Opus 及Sonnet 表现出色，7 项中有4 项测试表现较佳，个别项目的表现已超越GPT- 4。

多个方面超越GPT-4

在「创意」方面，Matt 要求三个人工智能系统以狼、魔法锤子、基因异变体为线索，文字创作一段英雄冒险故事，Matt 认为三者都能达到基本要求，速度上以Sonnet 最快，但论故事细节、完整度则以Opus 创作的故事为佳。他提到GPT-4 亦能达到要求，但表现不如Claude 3。

至于「编码」方面，Matt 要求三个人工智能系统提供一段程式码，让使用者可利用编码设计一个「棍子收集金币」的JavaScript 游戏，结果Opus 表现最好，一次到位，其次为Sonnet，也仅需修正一次即可完成编码，相反GPT-4 表现却未如理想，前后用了两次修正均未能成功提供一段符合创作要求的编码。

「文件摘要」方面，Matt 则把一篇与人工智能相关、长达155 版字的研究论文发给三个系统，要求它们撮写论文重点，结果三者均能完成要求，但亦以Sonnet 及Opus 的表现较佳，能在整理重点时描述得更为深入。Matt 特别提到Opus 日前曾在「needle in a haystick」测试中（「大海捞针」测试：测试人员把答案随机藏在大量文本当中，看AI 能否针对问题精准找出被藏在大海中的「针」），找出与文本不相符的内容，甚至提问相关内容是否以「AI 能否注意到」为测试目的才放进文本之内，Matt 特别强调Claude 3 在「大海捞针」的表现，远胜GPT -4。

至于在「图像描述」、「对特定议题的意见」两方面，Matt 认为三者表现相若，例如它们均能准确描述他提供的图像，描绘出背景内容、衣着、颜色、用字等资讯，其中在描述股票图时，GPT-4 能较Claude 3 提供更多图像以外的资讯，但三者表现相差不远。Matt 亦特别就「特朗普或拜登上任的影响」、「取消文化对社会的影响」、「大麻对脑部发展的影响」等争议题目，寻求人工智能的意见，他指三个系统均提供正反持平意见，没特定偏颇某一立场。

另外，Matt 设了两条问题去比较三者的「逻辑」推算能力，其中一条是经典的「天堂与地狱守门人」逻辑问题， Matt 指三个系统均能提供正确答案，但答案均非常相似，难以分辨是否训练模组均曾训练过类似问题；另一问题则考验人工智能系统能否透过不完整资讯推论答案，Matt 认为GPT-4 能准确回答，表现较好，但影片留言却有不少人替Claude 3 平反，指Matt 的逻辑问题描述有歧义，或会影响Sonnet 及Opus 出现偏差；在「逻辑」方面，看来还需要更多测试来一分高下。

Claude 3 定价相当有竞争力

最后，Matt 认为Sonnet 的「定价」、性价比完胜GPT-4，他指Sonnet 作为Claude 3 旗下供公众免费使用的系统，在「创意」、「编程」、「文件摘要」表现竟比收费的GPT- 4 更佳，更提到用家如需经常运用AI 协助编码、整理文件内容，撇除Sonnet 的每日使用次数限制（每天约10 条讯息），Sonnet 的表现可说是无可挑剔，性价比、表现均极佳。

不少人会每月付费使用Claude 3，但使用上难免有安全及支援不足的忧虑。其实坊间也可透过AWS 的Amazon Bedrock，轻松使用Claude 3 进行跨文本、图像、图表的工作，加上由于使用了Amazon Bedrock 平台，硬件和软件性能均会得到提高，Claude 3 的实时互动速度也会显著加快，提供更准确和可靠的回应。对比前文提到的忧虑，Amazon Bedrock 平台让用家不用瞎子摸象，即可简化用家专有数据的训练模型，自行根据独特需求调整Claude 3。

Poe.Monster已经支持Anthropic Claude最新的三个模型，免费容量限制如下：

OpenAI ChatGPT 3.5 模型 40 次 / 3 小时
OpenAI ChatGPT 4.0 模型 2 次 / 24 小时
Anthropic Claude 3 Haiku 模型 40 次 / 3 小时
Anthropic Claude 3 Sonnet 模型 2 次 / 24 小时
Anthropic Claude 3 Opus 模型 2 次 / 24 小时

公测网址：https://poe.monster/

如需购买OpenAI/ChatGPT 官方账号、API Key、GPT-4.0 Plus 订阅账号，以及 OpenKey 账号池等商品/服务，请点击链接：
https://shop.51buygpt.net/

牛爷爷团队致力于深耕ChatGPT AI生态圈，提供社区支持以及可靠的质量保证。

52ig

想向大家推薦一位非常棒的茶姐你對品茶有興趣，請加她的瀨號：52ig 我已經多次在她家消費過並且對她的素質印象深刻服務很親切也很專業，讓我在品茶的過程中感到非常舒適我很樂意向大家推薦她喲