谁说 Claude 2 超越了 ChatGPT:我用真实案例告诉你谁才是王者
作为 ChatGPT 第一批种子用户,一路上体验了 ChatGPT 3.5 到 ChatGPT 4 以及 ChatGPT 插件的全过程。最近一个月又使用了 Claude 2,于是想梳理下它们的区别。
本文将通过多个维度,结合实际案例来比较 ChatGPT 3.5,ChatGPT 4 以及 Claude 2。
所用的提示词和 ChatGPT 的输出均为英文,毕竟这样才能真正比较它们的能力,而不是比较它们谁对中文更加友好。但是我会把它们翻译一下,来让本文的阅读体验更流畅。
我一直坚持用英文的提示词,因为大多数情况下都能获得更好的效果,毕竟国外的大模型用于训练的英文数据远远超过中文。即使我遇到英文 Hold 不住的情况也会用谷歌或者 DeepL 翻译。
什么是 ChatGPT 和 Claude 2
在快速发展的人工智能领域中,有两种突破性的 AI 聊天助手已成为大语言模型的领跑者:OpenAI 公司的 ChatGPT 和 Anthropic 公司的 Claude 2。这两种模型都通过人类的自然语言与用户进行对话,帮助他们答疑解惑,处理各种工作和生活中的问题。
ChatGPT 是大语言模型的先驱。它于 2022 年 11 月 30 日作为免费预览版推出,基于 GPT-3.5 模型,在 5 天之内就吸引了超过 100 万注册用户。2023 年 3 月 14 日,OpenAI 又发布了 GPT-4,即作为 API,又作为 ChatGPT Plus 的一项功能。同年 4 月 23 日,OpenAI 又发布了插件功能,开始集成第三方服务扩展 ChatGPT 的功能。
另一方面,Claude 2 由 Anthropic 于 2023 年 7 月推出,被认为是 ChatGPT 的竞争对手。它是 Claude 1.3 的改进版本,对上下文有了更深入的理解。相比于 GPT-3.5,它可以处理更长的文本,拥有更新的知识库。
支持的文本长度
人们经常会用字符数或者单词数/字数来统计文本的长度。但像 ChatGPT 这样的大语言模型却不是这样计算的。它使用 Token 作为读取的文本单元。如果要分析这句话:”I love ChatGPT models.”,ChatGPT会把它分解为 “I”, “love”, “Chat”, “G”, “PT”, “models”, “.” 这 7 个 Token,如下图所示,甚至一个句号都作为一个 Token。
具体怎样分解大概只有 ChatGPT 才知道,但是可以我们可以使用这样一个经验法则来计算 Token 的数量:一个 Token 通常对应于普通英语文本中的约 4 个字符。如果是 1000 个 Token 的话,大概相当于 750 个单词。
所有的大语言模型都有 Token 的限制,因此当你使用如 ChatGPT 3.5 的时候,如果你输入一段超长的文本,会出现报错信息,因此你必须减少输入的字数或者采用其他方法。
让我们对比下 ChatGPT 3.5, ChatGPT 4 以及 Claude 2 的 Token 限制。
ChatGPT 3.5 的 Token 限制是 4096,相当于约 3072 个英文单词。这个限制包括了输入和输出,也就是说你的输入和 ChatGPT 的输出加起来不能超过 3072 个英文单词。
ChatGPT 4 的 Token 限制是 8000,相当于约 6000 个英文单词。
Claude 2 的 Token 限制高达 100000,能够处理数百页的技术文档甚至一本书。
从指标上看,似乎 Claude 2 用来总结长文本的能力无与伦比,但是实际上如何呢?我们来看一个案例。
我在之前的文章中,用 ChatGPT 结合 VoxScipt 插件总结了一个帕丽斯·希尔顿纪录片的长达2万4千个单词的视频文稿。
👉 如何用ChatGPT或Claude总结Youtube视频内容
ChatGPT的输出如下:
这部名为《帕丽斯·希尔顿的真实故事》的视频是一部深入介绍著名社交名媛、模特和女商人帕丽斯·希尔顿生活的纪录片。这部纪录片于 2020 年 9 月 13 日上传至帕丽斯·希尔顿的 YouTube 频道,至今已获得超过 7700 万次观看。
以下是内容摘要:
简介
纪录片以帕丽斯·希尔顿的公众形象蒙太奇开始,突出了她作为名人的名声。影片展示了她的各种事业,包括她的DJ事业、商业活动和媒体亮相。这段视频强调了帕丽斯的公众形象与真实自我之间的反差。
早期生活和家庭背景
帕丽斯-希尔顿是酒店大亨康拉德·希尔顿的曾孙女。纪录片探讨了她保守的家庭背景,以及她为不辜负希尔顿之名而感受到的压力。纪录片讨论了她的家庭期望和创建庞大酒店帝国的过程。
公众形象与个人奋斗
影片深入探讨了帕丽斯被宠坏的傲慢派对女孩的公众形象,并与她的真实个性形成鲜明对比。影片揭示了她一直在为公众扮演一个角色,没有人真正了解她。帕丽斯公开了她童年时期的一件创伤性事件,这件事至今仍困扰着她,使她噩梦连连,心灵受到创伤。
个人转变
随着纪录片的进展,帕丽斯回顾了她的心路历程以及拍摄开始后她的变化。她谈到了自己的紧张情绪和内容的个人性质,表达了停止做噩梦和为自己的创伤做点什么的愿望。
结语
这部纪录片将探讨帕丽斯生活的方方面面,包括她的幼年、疯狂的生活方式、噩梦、青少年时期、糟糕的人际关系、虐待故事、幸存者重聚、打破沉默以及向母亲讲述真相。
视频分为不同的部分,所提供的文字记录涵盖了介绍以及对帕丽斯的生活、家庭和个人奋斗的一些见解。视频暗示了对帕丽斯生活的深入探索,超越了她的公众形象,旨在揭示 “不为人知的真实故事”,这些故事塑造了这个标志性人物背后的女人。
如果您想更详细地了解帕丽斯-希尔顿的故事,请点击这里观看完整纪录片。
如果我把视频文本复制下来交给 Claude 2 怎么样呢?来看下它的输出结果:
以下是视频记录的几个要点:
- 帕丽斯-希尔顿(Paris Hilton)讨论了她作为真人秀明星和影响力人物的公众形象与她的私人形象。她说 “帕丽斯 “这个角色与真实的她大相径庭。
- 她透露自己小时候在寄宿学校/行为矫正机构受到虐待。这包括身体和情感上的虐待、孤立和过度用药。
- 希尔顿与学校里的其他幸存者重新建立了联系。他们一起参加了 “打破沉默法则 “活动,以提高人们对机构虐待的认识。
- 希尔顿在焦虑、信任问题和噩梦中挣扎,这些都是她的经历造成的。她希望通过说出自己的经历来阻止其他儿童遭受虐待。
- 文字记录涵盖了希尔顿的职业生涯、人际关系和家庭动态。它让我们深入了解了她公众形象的由来以及塑造她的创伤。
总之,文字记录涵盖了帕丽斯-希尔顿对童年受虐的揭露,以及她公开反对问题少年产业的动机。
ChatGPT其实也有多种方式可以提交长文本,比如使用谷歌浏览器插件或者 Code Interprete,我在之前的文章里也有介绍。
👉 4种方法让你上传任何文件到ChatGPT: 总有一种适合你
我把视频文本做成一个PDF然后提交给 AskYourPDF 插件让它总结,输出如下:
这份 PDF 文档似乎包含了以帕丽斯-希尔顿为主角的纪录片《这就是巴黎》的文字记录。文本内容相当广泛,因此我将对文件中涉及的关键主题和话题进行总结:
- 个人奋斗与胜利: 帕丽斯-希尔顿讨论了她的个人奋斗历程,包括身体虐待、情感创伤以及她克服这些挑战的历程。她谈到了自己遭受欺凌的经历、严格的教养以及她向公众人物的转变。
- 创造 “帕丽斯 “形象: 访谈记录深入探讨了帕丽斯-希尔顿是如何塑造自己的公众形象的,包括她在纽约社交圈的经历、她对时尚的热爱以及她的成名之路。她的母亲凯西(Kathy)也分享了帕丽斯的童年以及她对女儿生活方式的担忧。
- 与家人的关系: 帕丽斯与家人,尤其是母亲的关系是一个反复出现的主题。书中讨论了家庭动态、期望以及家人对她的支持。
- 事业与品牌: 探讨帕丽斯-希尔顿作为模特、DJ 和女商人的职业生涯,包括她在各种产品系列和全球品牌方面的成功。此外,还讨论了她的公众形象与私生活之间的矛盾。
- 积极行动和提高认识: 文件讨论了如何提高人们对校园虐待等问题的认识,以及直言不讳的重要性。帕丽斯和其他人分享了他们的经历以及这些经历对他们生活的影响。
- 音乐和娱乐: 文件中提到了帕丽斯-希尔顿参与娱乐业的情况,包括她的音乐和她作为 DJ 的角色。
- 浪漫关系: 内容涉及帕丽斯-希尔顿的恋爱关系,包括她不愿意在公开场合看到她与前一段恋情后的新伴侣在一起。
- 情感反思: 在整个记录誊本中,帕丽斯-希尔顿的情感反思和对话让人对她的情感、思想和个人成长有了更深入的了解。
这份文件似乎是对帕丽斯-希尔顿的生活、事业和个人发展的全面回顾,提供了一个知名公众人物的多面视角。如果您需要更多具体细节或对内容有任何特殊疑问,请告诉我!
虽然 ChatGPT 本身不支持长文本,但是可以利用 Code Interpreter 或者背后强大的插件弥补这些不足。对于长文本的支持其实并不是大语言模型的核心竞争力。从以上的案例来看,配合插件,ChatGPT 总结长文本的能力超过了 Claude 2,它总结的内容读起来更加连贯。
尽管如此,Claude 2 处理长文本毕竟很方便,直接把长文本复制粘贴进去就好了。如果不是追求最好的输出效果的话,可以使用 Claude 2。
知识体系和联网能力
ChatGPT 3.5 和 ChatGPT 4 的训练数据是在 2021 年 9 月之前,对于之后发生的事件并不了解,无法回答跟实时信息有关的问题。
Claude 2 由于训练时间比 ChatGPT 晚,它的知识更加新,经过我的测试,大概停留在 2022 年 11月。
不配合其他插件的话,ChatGPT 和 Claude 2 都是无法联网的。对于 ChatGPT 3.5 来说,可以配合谷歌浏览器插件实现联网。对于 ChatGPT 4 来说,可以配合 ChatGPT 插件,比如 WebPilot 或 Access Link 实现联网。
目前,还没有 Claude 2 联网的解决方案。
推理能力
推理能力是考验大模型的一个非常重要的指标。高级推理使这些AI助手能够解决复杂的问题,更好地理解上下文,进行更加人性化的对话。
我测试过很多推理题,发现 Claude 2 非常接近 ChatGPT 4 的水平,基本上 ChatGPT 4 能得出正确结论的问题 Claude 2 也都能解决。如果是 Claude 2 无法得出正确答案的问题,ChatGPT 4 也无法得出。但是这两者都比 ChatGPT 3.5 在逻辑推理上的能力要强。
但是也有例外,有时候 ChatGPT 4 略胜一筹。
我们来把这样一道推理题分别交给 ChatGPT 3.5,ChatGPT 4 以及 Claude 2。
杰克和安迪是好朋友。有一次,有人问他们 “你们谁的成绩更好?” 杰克立刻回答:”我的成绩更好。” 相反,安迪承认:”我的成绩更差。” 显然,他们中至少有一个人没有说实话。 现在,究竟谁的成绩更好呢?(众所周知,他们的成绩各不相同)
Jack and Andy are close friends. On one occasion, someone asked them, “Which one of you has better grades?” Jack promptly replied, “I have better grades.” Conversely, Andy admitted, “My grades are worse.” Obviously, at least one of them didn’t tell the truth. Now, who actually has better grades? (Since they are known to have different grades)
只有 ChatGPT 4 才给出了令人满意的答案,它分析除了杰克跟安迪两个人都在说谎。
前提是他们中至少有一个人没有说实话,这并不排除他们两个都在撒谎的可能性。以下是几种可能性:
- 如果杰克说的是实话(他的成绩更好),那么安迪说的也是实话(他的成绩更差)。但这意味着两人说的都是实话,这与前提相矛盾。因此,这种情况是不可能的。
- 如果安迪说的是实话(他的成绩更差),那么杰克说的也是实话(他的成绩更好)。同样,这意味着两人说的都是实话,这与前提相矛盾。因此,这种情况也是不可能的。
- 第三种情况是两人都在说谎。在这种情况下,杰克说成绩好是假的,安迪说成绩差也是假的。因此,成绩更好的人应该是安迪。
因此,综上所述,安迪的成绩其实更好。
ChatGPT 3.5 无法给出答案。
根据给出的信息,我们可以对这些陈述进行分析:
- 杰克说:”我的成绩更好”。
- 安迪说:”我的成绩更差”。
由于两人的说法不同,我们可以得出结论:至少有一个人在撒谎。让我们考虑一下各种可能性:
a) 如果杰克在撒谎: 这意味着安迪的说法是真的,这意味着安迪的成绩比杰克差。
b) 如果安迪在撒谎: 这意味着杰克的说法是真的,这意味着杰克的成绩比安迪好。
由于我们知道他们中至少有一个人在撒谎,所以我们无法确定谁的成绩更好。杰克和安迪的说法相互矛盾,我们需要更多的信息来确定谁的成绩更好。
Claude 2 的逻辑也是不对的。
好吧,我们来逐步分析一下:
- 杰克说 “我的成绩更好”
- 安迪说:”我的成绩更差”
- 我们知道他们的成绩不同,所以至少有一个人在撒谎。
- 如果杰克说他的成绩更好是真的,那么安迪说他的成绩更差一定是假的。
- 但是,如果安迪说他的成绩更差是真的,那么杰克说他的成绩更好也一定是在撒谎。
既然他们的成绩不同,而且其中一个人在撒谎,那么这就意味着:
- 安迪说的是实话,他的成绩更差。
- 杰克谎称自己成绩更好。
因此,两人中安迪的成绩更好。
因此,综上所述,即使杰克声称自己成绩更好,他也是在撒谎。安迪如实承认自己的成绩比杰克的差,这意味着安迪的成绩在两个朋友中更好。
训练参数
如果把 ChatGPT 这样的大语言模型比作机器人的话,那么机器人的大脑就是由被称为“参数”的东西组成,相当于机器人的脑细胞。它对于机器人有以下好处:
- 帮助机器人理解人类语言中更微妙的细节,例如笑话、梗和讽刺
- 帮助机器人学习更多你提供的信息,从而提升解答问题的能力
- 更准确的回答问题并写出更有意义,更连贯的解释
- 做更多不同种类的工作
- 训练成本更高,消耗更多能源
ChatGPT 3.5 共有1750 亿个参数,ChatGPT 4 拥有更多的参数,据说高达数万亿。Claude 2 的训练参数仅仅是 8.6 亿。
ChatGPT 的训练参数远远超过 Claude 2,因此在很多情况下,它对人类语言中微妙的部分理解力更强,在实际使用上感觉似乎“情商”更高。但是这种差异也很难用语言描述,需要读者自己在使用过程中细细体会。但是从前文中推理能力的表现上看,参数数量如此低的 Claude 2 能够超越 ChatGPT 3.5 也是令人惊叹。
创造力
虽然像 ChatGPT 这样的大语言模型并不像人类那样通过意识和情感产生真正的创造力,但是可以组合大量信息生成看起来很有创意的文本。但是这样的伪创造力却可以为人们产生想法,解决问题,提升生产力。
评估大模型的创造力的方法很多,我干脆让它们自己告诉我如何评估,看看它们评估的方法是否有创意。
我的提示词 :
您能帮我想出十道真实世界的测试题来评估大型语言模型的创造力吗?我想评估它的想象力。
Can you help me come up with ten real-world test questions to assess the creativity of a large language model? I want to evaluate its imaginative capabilities.
ChatGPT 3.5 的回答:
当然!评估语言模型的创造力可能很有难度,但以下十道真实世界的测试题可以帮助您评估其想象力:
- 发明一种新动物,并描述其外形、栖息地和独特能力。
- 以下列句子为开头写一个小故事: “门吱呀一声打开了,展现在眼前的是一个与众不同的世界”。
- 创作一首诗,捕捉神秘迷人森林的精髓。
- 设计一款具有独特规则和游戏机制的全新棋盘游戏。
- 想象一个未来城市,科技解决了所有环境问题。描述它的外观和功能。
- 撰写两个人工智能实体之间的对话,讨论生命的意义。
- 发明一种融合不同文化元素的全新美食。
- 为一个拥有奇幻景点的假想岛屿度假村编写旅游手册。
- 描述一个人类与机器和谐共存的乌托邦社会。
- 发明一系列想象力丰富、令人费解的谜语,以挑战和娱乐所有年龄段的人。
请记住,创造力是主观的,这些问题旨在激发和衡量语言模型生成原创性和想象力内容的能力。根据您希望评估的创造力的具体方面,您可以随意调整问题或添加更多问题。
ChatGPT 4 的回答:
当然!评估创造力可能具有挑战性,但您可以通过提出需要想象力思维、解决问题或创造独特内容的问题来进行评估。以下十个问题可能有助于评估大型语言模型的创造力:
- 隐喻思维: “想象一下,一颗新发现的行星就像一件艺术品。用艺术的语言描述这颗行星,使用隐喻和类比来表达它的特征、气候和生命潜力。”
- 故事发展: “你找到一把能打开任何锁的钥匙,但用了三次就坏了。请写一个涉及这把钥匙的小故事,描述主人公如何使用它以及这些选择的后果。”
- 创造性地解决问题: “一个城市想建一座桥,同时又不影响桥下河流中的濒危物种。他们可以考虑哪些创新的设计方案?解释工程和生态方面的考虑因素”。
- 视觉创造力: “描述一种结合了绘画、音乐和虚拟现实的新型艺术形式。如何创作,观众会有怎样的体验?”
- 发明设计: “为一种有助于减少老年人孤独感的未来装置设计一个概念。解释其功能、外观以及如何对用户的生活产生积极影响。”
- 想象情景: “在一个个人可以控制重力的世界里,日常生活、建筑、交通和社会交往会发生怎样的变化?请详细描述这个世界”。
- 创造性诠释: “选取一个经典童话故事(如灰姑娘),在现代城市环境中重新诠释。概述你的更新版本中的情节、人物和关键主题”。
- 情感创意: “从一棵树经历四季的角度写一首诗。表达树在天气变化中可能感受到的情绪和感觉。”
- 原创游戏设计: “设计一款新的棋盘游戏或视频游戏,向玩家传授环境可持续发展的知识。解释游戏规则、目标以及游戏如何让玩家了解这一重要主题。”
- 道德创意: “想象一个社会已经成功地解决了所有物质和经济问题,但仍在冷漠和缺乏目标的困境中挣扎。请提出这个社会可以采取的创造性文化举措,以激发公民的激情和成就感”。
这些问题激发了想象力,提出了独特的解决方案,并将各种因素综合成一个连贯而新颖的想法。这些回答不仅可以帮助您评估创造力,还可以帮助您评估批判性思维和综合能力。
Claude 2 的回答:
以下是 10 个可能的测试问题,用于评估大型语言模型的创造性:
- 写一首关于猫的短诗。
- 用鸡蛋、牛奶、面粉、糖、黄油这 5 种常见配料想出一个新食谱。
- 描述一个虚构的国家,包括有关其地理、文化、政府和经济的细节。
- 创作一首爵士风格的钢琴独奏小曲。
- 设计一台具有新奇用途的假想机器,并描述其工作原理。
- 写一个短剧场景,描写 3 个个性鲜明的人物初次见面的情景。
- 将这 3 个随机词语组合成一个小故事:雨伞、金鱼、电话。
- 画一幅机器人骑独轮车的图画,并描述场景中发生的事情。
- 自选一个有趣的假冒产品,制作一个 30 秒钟的电视广告。
- 写一篇虚构的新闻文章,将最近发生的一件不太可能或荒诞的事情当作真实事件来描述。
显而易见的是,ChatGPT 4 的回答最令人满意。不仅把评估创造力的方法做了很有条理的分类,且举的例子非常具体,而且充满想象力。
相比而言,ChatGPT 3.5 和 Claude 2 的水平比较接近,哪个更好可能取决人个人喜好。
代码能力
为了测试 ChatGPT 和 Claude 2 的代码水平,我让它们分别写一个非常经典的贪吃蛇小游戏,在网页上控制方向键就可以玩。这是任务的指令:
使用单个 HTML 文件创建一个贪吃蛇游戏。在其中执行 HTML、CSS 和 JavaScript 代码。游戏开始前,玩家可通过三个按钮选择蛇的速度难度。倒计时 5 秒后,游戏开始。使用箭头键控制蛇的移动、收集食物,并避免与墙壁和蛇身发生碰撞。随着蛇的成长,游戏也会变得更具挑战性。使用空格键暂停,蛇吃完食物后会变大。
Create a Snake Game using a single HTML file. Implement HTML, CSS, and JavaScript codes in it. Players can select the snake’s speed difficulty with three buttons before starting the game. After the countdown of 5 seconds, the game begins. Use arrow keys to control the snake’s movement, collect food, and avoid collisions with walls and its body. The game gets more challenging as the snake grows. Pause using the space bar, and the snake will grow bigger after consuming food.
每个模型我都试了多次,把它们发挥最好的版本展示出来。
先来看下 ChatGPT 3.5 设计的游戏:
我没有要求UI设计,ChatGPT 3.5 也没有主动设计一个漂亮的界面,游戏的标题和按钮都堆在游戏窗口的左边。它也没有按照我的要求在游戏开始前显示倒计时。游戏在运行过程中看上去没有大问题,其实我一按空格键就有 Bug 了。
下面是 ChatGPT 4 的设计的贪吃蛇游戏。
效果还是非常令人满意的,UI 设计的比较美观,游戏开始前也有倒计时。运行过程也没有什么问题,甚至我按空格键游戏就暂停了,再按空格键还是可以正常运行。
Claude 2 制作的游戏比前两个都逊色,而且我尝试了很多次,下图的版本已经是最好的了,其他的都无法运行。它设计的游戏根本不会 Game Over ,蛇跑到电脑屏幕外都可以跑回来😅,而且蛇永远不会变大。
文件上传
ChatGPT 3.5 和 ChatGPT 4 本身是无法上传文件的,但是都可以借助浏览器插件实现文件上传。
除此之外,ChatGPT 4 还可以借助 OpenAI 自主开发的代码解释器实现多文件上传,每个文件最好不要超过 100 MB。你甚至还可以上传图片让 ChatGPT 进行编辑。
👉 4种方法让你上传任何文件到ChatGPT: 总有一种适合你
Claude 2 自带文件上传功能,最多支持 5 个 10 MB 之内的文件上传。
数据分析
ChatGPT 3.5 借助浏览器插件可以上传 CSV 格式的数据。Claude 2 则可以直接上传 CSV 格式的数据。它们的数据分析还是借助于大模型本身的自然语言能力进行文字层面的分析。两者都无法上传 Excel 文件进行分析,如果要生成图表的话得借助代码。
ChatGPT 4 则可以借助代码解释器上传 CSV 和 Excel 文件,并用 Python 代码实现大数据分析和可视化。
如果安装了 Noteable 插件,ChatGPT 4 的数据分析能力更强大,机器学习建模都不在话下。
👉 比代码解释器强大10倍:Noteable ChatGPT插件才是数据分析的王者
费用和开放程度
目前 ChatGPT 3.5 和 Claude 2 是免费的,ChatGPT 4 每月 20 美金。ChatGPT 目前面向全球 163 个国家开放,Claude 2 目前只对美国和英国开放。当然,如果你的 IP 在这些国家,即使人不在,也是可以访问的。ChatGPT 对网络环境的要求高一些,最好你的 IP 是住宅 IP 而非服务器 IP。
总结
Claude 2 虽然在很多方面不如 ChatGPT 4,但它毕竟是免费的,而且在很多方面胜过了免费的 ChatGPT 3.5。ChatGPT 4 目前还是没有对手的,更加强大的是它正在建立的生态系统。如果很多开发 ChatGPT 插件和其他调用 OpenAI 的 API 的公司都把 OpenAI 的模型作为基础设置,那它所建立的护城河是其他竞争对手很长时间无法超越的。
值得注意的是,虽然本文通过大量的实例来对比两者的差异,然而这只是一种归纳推理,并不是完全严谨的方法。每个人应用它们的场景是不同的,要结合自己的使用体验来看,用过一段时间都会逐渐了解两者的差异。
总之,ChatGPT 和 Claude 2 都在不断发展,希望它们最好是一个你追我赶的状态,为广大用户提供最佳的体验。