由AI 初创Anthropic 设计的最新AI 模型Claude 3 横空出世,AWS 早前更宣布Claude 3 将会于Amazon Bedrock 上提供服务。日前就有外国Youtuber 拍片比较Claude 3 及ChatGPT,甚至用上「终于有可以打败GPT 的AI」为题,高度称赞Claude 3 在效能、性价比方面的优秀表现。
专门点评人工智能、科技产品的美国Youtuber Matt Wolfe 日前出片比较Claude 3 及ChatGPT。Matt 以自订的「创意」(creativly)、「逻辑」(logic)、「编码」(coding)、「文件摘要」(summrizing docs)、「图像描述」(vision)、「对特定议题的意见」(bias)及「定价」(pricing)七大范畴作测试标准,分别按每范畴所设定的题目,向Claude 3 Opus(下称Opus)、Claude 3 Sonnet(下称Sonnet) 及GPT- 4 询问答案,比较三者的差异。结果Matt 认为同属Claude 3 的Opus 及Sonnet 表现出色,7 项中有4 项测试表现较佳,个别项目的表现已超越GPT- 4。
多个方面超越GPT-4
在「创意」方面,Matt 要求三个人工智能系统以狼、魔法锤子、基因异变体为线索,文字创作一段英雄冒险故事,Matt 认为三者都能达到基本要求,速度上以Sonnet 最快,但论故事细节、完整度则以Opus 创作的故事为佳。他提到GPT-4 亦能达到要求,但表现不如Claude 3。
至于「编码」方面,Matt 要求三个人工智能系统提供一段程式码,让使用者可利用编码设计一个「棍子收集金币」的JavaScript 游戏,结果Opus 表现最好,一次到位,其次为Sonnet,也仅需修正一次即可完成编码,相反GPT-4 表现却未如理想,前后用了两次修正均未能成功提供一段符合创作要求的编码。
「文件摘要」方面,Matt 则把一篇与人工智能相关、长达155 版字的研究论文发给三个系统,要求它们撮写论文重点,结果三者均能完成要求,但亦以Sonnet 及Opus 的表现较佳,能在整理重点时描述得更为深入。Matt 特别提到Opus 日前曾在「needle in a haystick」测试中(「大海捞针」测试:测试人员把答案随机藏在大量文本当中,看AI 能否针对问题精准找出被藏在大海中的「针」),找出与文本不相符的内容,甚至提问相关内容是否以「AI 能否注意到」为测试目的才放进文本之内,Matt 特别强调Claude 3 在「大海捞针」的表现,远胜GPT -4。
至于在「图像描述」、「对特定议题的意见」两方面,Matt 认为三者表现相若,例如它们均能准确描述他提供的图像,描绘出背景内容、衣着、颜色、用字等资讯,其中在描述股票图时,GPT-4 能较Claude 3 提供更多图像以外的资讯,但三者表现相差不远。Matt 亦特别就「特朗普或拜登上任的影响」、「取消文化对社会的影响」、「大麻对脑部发展的影响」等争议题目,寻求人工智能的意见,他指三个系统均提供正反持平意见,没特定偏颇某一立场。
另外,Matt 设了两条问题去比较三者的「逻辑」推算能力,其中一条是经典的「天堂与地狱守门人」逻辑问题, Matt 指三个系统均能提供正确答案,但答案均非常相似,难以分辨是否训练模组均曾训练过类似问题;另一问题则考验人工智能系统能否透过不完整资讯推论答案,Matt 认为GPT-4 能准确回答,表现较好,但影片留言却有不少人替Claude 3 平反,指Matt 的逻辑问题描述有歧义,或会影响Sonnet 及Opus 出现偏差;在「逻辑」方面,看来还需要更多测试来一分高下。
Claude 3 定价相当有竞争力
最后,Matt 认为Sonnet 的「定价」、性价比完胜GPT-4,他指Sonnet 作为Claude 3 旗下供公众免费使用的系统,在「创意」、「编程」、「文件摘要」表现竟比收费的GPT- 4 更佳,更提到用家如需经常运用AI 协助编码、整理文件内容,撇除Sonnet 的每日使用次数限制(每天约10 条讯息),Sonnet 的表现可说是无可挑剔,性价比、表现均极佳。
不少人会每月付费使用Claude 3,但使用上难免有安全及支援不足的忧虑。其实坊间也可透过AWS 的Amazon Bedrock,轻松使用Claude 3 进行跨文本、图像、图表的工作,加上由于使用了Amazon Bedrock 平台,硬件和软件性能均会得到提高,Claude 3 的实时互动速度也会显著加快,提供更准确和可靠的回应。对比前文提到的忧虑,Amazon Bedrock 平台让用家不用瞎子摸象,即可简化用家专有数据的训练模型,自行根据独特需求调整Claude 3。
Poe.Monster已经支持Anthropic Claude最新的三个模型,免费容量限制如下:
OpenAI ChatGPT 3.5 模型 40 次 / 3 小时
OpenAI ChatGPT 4.0 模型 2 次 / 24 小时
Anthropic Claude 3 Haiku 模型 40 次 / 3 小时
Anthropic Claude 3 Sonnet 模型 2 次 / 24 小时
Anthropic Claude 3 Opus 模型 2 次 / 24 小时
公测网址:https://poe.monster/
如需购买OpenAI/ChatGPT 官方账号、API Key、GPT-4.0 Plus 订阅账号,以及 OpenKey 账号池等商品/服务,请点击链接:
https://shop.51buygpt.net/
牛爷爷团队致力于深耕ChatGPT AI生态圈,提供社区支持以及可靠的质量保证。