谷歌 Gemini 吊打 GPT-4?来看我的深度测评
万众期待的谷歌最新的大模型 Gemini Pro 发布了!之后还会上线更强大的 Gemini Ultra 。
曾经听到新闻说 Claude 2 超越 GPT-4,后来又听说谷歌 Bard 超越 GPT-4。今天一觉醒来,又听说 GPT-4 被谷歌 Gemini 超越了,不由得问自己:这是真的吗?
很多博主一看下面这个表格就说 Gemini 全面超越了 GPT-4。毕竟这是权威的 benchmark,数据都是真实的。
实际上,这个指标也可以作弊的。如果有意把用于评估大语言模型的的测试数据包含在大语言模型的训练数据时,它自然会表现得更出色。
就像考试一样。如果提前知道考试的内容包含在哪几本书里。然后考前拼命学习那几本书,最终的成绩可能会比那些平时很用功,但并不知道考试内容的学生最终取得的成绩要好。
当然,我并不是说谷歌在作弊,只是说不能单纯靠这些 benchmark 来判断大模型的优劣。
下面我们来通过 Token 容量、长文本总结、知识更新、推理能力、数学能力、联网搜索能力、识图能力、中文支持等 8 个指标,对比谷歌 Gemini Pro 和 GPT-4 的能力。
目前 Gemini Pro 免费,如果还没有用过,可以访问这个网址:https://bard.google.com/。Gemini Pro 这个模型已经接入谷歌 Bard。确保你的谷歌账号的地址是漂亮国。
需要说明的是,我在测试过程中用的是英文提示词,因为这样才能客观地进行比较。毕竟模型主要的训练数据是英文。中文提示词出来的结果不佳,可能是模型的中文训练数据不够,并不代表模型本身的能力不强。
文末,我也会用中文提示词,测一下两个模型对中文的支持力度。
Token 容量
Token 容量是评估大模型非常重要的一个指标。说的直白一些,就是你跟大模型进行一次完整的对话,大模型能容纳多少单词。
比如让大模型总结一本书的内容,如果被允许容纳的单词越多,那么我们就可以总结更长的文本。
在跟大模型的多轮对话中,如果 Token 容量越大,那么它的记忆能力通常来说也会更强,更不会出现到后来忘记你之前跟它对话的内容。
测试下来,目前 Gemini Pro 的 Token 容量比 GPT-4 小很多。我让它把 11 月份 OpenAI 开发者大会上山姆·奥特曼 45 分钟的 Youtube 字幕转化成一篇文章,结果在第 30 分钟的时候,就被截断了。
我提交的文本和它给出的响应文本加起来是 5327 个单词。Gemini Pro 有个比较另类的功能,可以生成三个不同的响应用你选择。加上另外两个响应的话,总单词数大概在 6000 上下。
ChatGPT 4 就很夸张了。我把两个 45 分钟的 Youtube 字幕都放进去让它转化成文章,它豪不费力。算下来达到 17408 个单词。实际还可能更高。
要知道 GPT-4 Turbo 的上下文窗口达到了惊人的 128k。
长文本总结
那么对于文本的总结能力,Gemini Pro 和 GPT-4 相比如何呢?
如下图所示,我之前的请求实际是要把 Youtube 字幕转化为一篇文章。但 Gemini Pro 只是把字幕内容进行了总结。
ChatGPT 4 转化的文章虽然也比较简短,但有头有尾,结构清晰。
再来看个例子。令我惊喜的是,Gemini Pro 居然可以直接总结 Youtube 视频的内容。其实,想想也是应该的,毕竟 Youtube 也是它的。总结的效果还行吧。
GPT-4 加上 VoxScript 插件,总结 Youtube 视频的效果比 Gemini Pro 效果要好。有头有尾,结构非常清晰。
从长文本中提取关键信息也非常考验大模型的能力。目前来看,Gemini Pro 还是比不上 GPT-4 的。不过 Gemini 总结 Youtube 视频非常方便,这一点也许是 GPT-4 永远比不上的。毕竟对于 OpenAI 来说,Youtube 不是自己的。
知识更新
11 月份 OpenAI 对 ChatGPT 的训练数据进行大幅更新,目前已经更新到 2023 年 4 月。并且此后还会继续更新。我问 Gemini Pro 它的训练数据是什么时候更新的,它居然告诉我是商业机密。
然后我问了它一个比较新的问题:如何在 ChatGPT 中创建自己的 GPTs。它居然回答得有模有样。但搞不清楚它是基于自己的训练数据还是基于联网获得的数据。
如下图所示,GPT-4 的训练数据里面没有创建 GPTs 这部分的知识。
然后,我只能让它激活联网功能,回答这个问题。GPT-4 一联网,回答的比 Gemini Pro 还要详细准确。
推理能力
大模型想要帮用户出色地完成任务,就得要像人类一样的逻辑思维能力。先来看这样一个逻辑题:
杰克从 A 班升入 B 班,会导致两个班的平均智商都提高吗?请解释原因或理由。
其实答案很简单,只需要考虑极端情况,托马斯松智商比A班平均智商低,比B班平均智商高。答案是肯定的。
先看看 ChatGPT-4 的回答:
是的,杰克从 A 班转到 B 班会导致两个班级的平均智商上升,这种情况通常被称为 “辛普森悖论”。当一种趋势出现在几组不同的数据中,但当这些数据组合在一起时却消失或逆转时,就会出现这种悖论。下面是这种情况下的工作原理:
迁移前的 A 班:A 班有一定的平均智商。当智商低于 A 班平均值的杰克离开后,A 班其余学生的平均智商会上升,因为他们去掉了一个拉低平均值的分数。
迁移前的 B 班:B 班也有自己的平均智商。当杰克加入 B 班时,如果他的智商高于 B 班的平均智商,那么尽管他的智商低于 A 班的平均智商,他也会提高 B 班的整体平均智商。
因此,两个班级的平均智商都可能因为杰克的转学而提高,这取决于杰克的相对智商和转学前后班级的平均智商。这一结果似乎与直觉相反,因为它表明同一个人从一个班级转到另一个班级,可以同时提高两个班级的平均智商,但这是两个班级平均智商基线不同的结果。
GPT-4 回答得非常完美。
Gemini Pro 3 个回答都不正确,下面是较好的那个回答。
是的,杰克从 A 班升入 B 班会导致两个班级的平均智商提高,但这是在特定情况下。
具体方法如下:
增加 B 班:
- 杰克的智商高于 B 班的平均智商。
- 杰克的出现可以激励 B 班的其他学生。看到一个成绩优秀的学生可以激励其他人更加努力,提高成绩,从而使全班的平均智商普遍提高。
提高 A 班:
- 杰克的离开使 A 班少了一名成绩优秀的学生,这会导致平均智商略有下降。
- 不再与明显领先的学生竞争,他们可能会失去一些动力,从而导致平均智商略有下降。
然而,A 班的这种下降可能会被两个因素抵消:
- A 班剩余的学生可能会体验到 “竞争减少效应”。杰克走后,他们可能会感到压力较小,并因自信心增强而表现得更好。
- 老师可能会调整教学方法,以更好地满足其余学生的需求。这可能会带来一个更专注的学习环境,并有可能提高平均智商。
因此,杰克搬家对两个班级平均智商的总体影响取决于多个因素,包括
杰克的智商与两个班的平均智商之间的差异。
两个班级的学习环境和教学风格。
两个班其余学生的学习动机和反应。在不知道这些因素的具体数值的情况下,我们不可能断言两个班级的平均智商会提高还是降低。不过,这两种情况都有可能发生。
再来看一道常识类的题目。下面的常识类题目都来自于 Yejin Choi 在 TED 上的演讲。
我有一个 12 升的壶和一个 6 升的壶,我想测量出 6 升。我该怎么做?
其实答案很简单,直接用那个 6 升的壶就能量出 6 升。
GPT 4 的脑回路有点长了。下面是它的回答:
我有一个 12 升的壶和一个 6 升的壶,我想测量 6 升。我该怎么做?
要使用 12 升壶和 6 升壶精确测量 6 升,可以按照以下步骤进行:
- 将 12 升水壶装满。
- 将 12 升水壶中的水倒入 6 升水壶中,直到 6 升水壶装满水。这样,12 升壶中就剩下 6 升水了。
现在,12 升壶中正好有 6 升水。
Gemini Pro 的脑回路更长:
下面介绍如何使用 12 升和 6 升水壶测量六升:
- 将 12 升水壶完全装满。
- 将 12 升壶中的水倒入 6 升壶中,直到 6 升壶中的水满为止。这样 12 升水壶中就剩下 6 升水了。
- 清空 6 升壶。
- 将 12 升壶中的 6 升水倒入空的 6 升壶中。
- 再次装满 12 升水壶。
- 将 12 升水壶中的水倒入已有 6 升水的 6 升水壶中,直到 6 升水壶再次装满水。
因此,您现在已经成功地用两个水壶测量了 6 升水。
再来看道常识题:
我把 5 件衣服放在阳光下晾干。它们花了 5 个小时才完全晾干。晾晒 30 件衣服需要多长时间?
大家都知道只需要 5 个小时就可以了。
来看看 Gemini Pro 的错误回答。 它甚至还用 Python 代码计算了一下。
ChatGPT-4 则给出了正确的回答。
衣服晾干所需的时间与衣服的数量并不成正比,前提是它们都处于相同的晾晒条件下(如阳光和空气流通)。如果您有足够的空间将 30 件衣服像晾晒 5 件衣服一样有效地摊开,并且天气条件保持不变,那么晾干所有 30 件衣服仍然需要大约 5 个小时。关键因素在于它们是否都能接受同样多的阳光和空气流通。如果它们没有被有效地分散开来,那么由于某些衣服的暴露量减少,可能需要更长的时间。
在推理能力和常识判断上,Gemini Pro 和 GPT-4 还是有差距的。
数学能力
数学能力也反映了大模型的推理能力。下面是一道不定积分的题目。
已知 σ : {0, . . . , 15} → {0, . . . , 15} 定义为 x \mapsto\left{\begin{array}{l}x+4 \text { if } x<12 \ x-12 \text { if } x \geq 12\end{array}\right.
请证明 σ 是一个重排/置换(permutation) 并描述它的轨道(orbit)。
这道题目来源于加州大学伯克利分校。正确答案有四个:
Gemini Pro Draft 1 少了一个答案。
Gemini Pro Draft 2 多了一个答案。
Gemini Pro Draft 3 则完全错误。GPT-4 则给出了正确答案。
联网搜索能力
Gemini 对于复杂联网搜索任务的表现令我感到惊喜!我提交了这样一个请求:
为一家虚构的消费品公司研究可持续包装解决方案。确定前 3 家可持续包装供应商,并提供一份关于其产品、价格和环境影响的报告。
Gemini Pro 非常完美地完成了这个任务。
它总结出的表格可以直接下载到谷歌表格里,非常方便。
相比之下,GPT-4 自带的联网功能无法完成这么复杂的任务。搭配 WebPilot 插件的 GPT-4 的表现也不如 Gemini Pro。它并没有给出表格,而且价格的数据也没能获取。
Gemini 强大的联网搜索功能,也许是 GPT-4 面临的巨大挑战。谷歌搜索引擎加持 Gemini 的优势,得让微软和 OpenAI 好好想想怎么应对了。
识图能力
和 GPT-4 一样,Gemini Pro 也是一个多模态的模型。它的图像识别能力也很强大。下面的图片和问题来源于 The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) 这篇论文。
我把下面这张图扔给 Gemini Pro,并问它这张图有什么搞笑之处。
它是这么回答的:
卡通犀牛画乌龟的形象之所以有趣,是因为它出人意料、不协调。犀牛通常与艺术无缘,而乌龟通常与绘画主题无缘。此外,犀牛的画作非常简单,充满童趣,与犀牛高大威猛的外表形成鲜明对比。
画面上方的文字 “你看到的世界就是你自己!”也增加了幽默感。它暗示犀牛的画是它内心世界的写照,简单而充满童趣。
下面是对画面幽默的更详细解释:
- 出乎意料犀牛通常与艺术无关,而乌龟通常与绘画主题无关。这种意外元素的并置是画面幽默的主要来源之一。
- 不协调: 犀牛的画非常简单,像个孩子,这与犀牛高大威猛的外表形成鲜明对比。这种不协调造成了一种荒诞感,这也是幽默的另一个来源。
- 隐喻:画面顶部的文字 “你看到的世界就是你自己!”暗示犀牛的画是它自己内心世界的反映。这个隐喻可以有多种解释,但它最终增加了画面的幽默感,暗示犀牛简单而稚拙的绘画反映了它对世界简单而稚拙的看法。
总之,卡通犀牛画乌龟的形象是一个幽默的形象,因为它出人意料、不协调,而且具有隐喻性。
Gemini 错把犀牛角认成了乌龟。而且没有理解这幅画的内涵。
GPT-4 对这幅画的内容和内涵的理解都很准确:
这幅画的幽默感来自于预期与描绘之间的反差。画面中,一只犀牛在画布上画了一幅自己的画。通常情况下,艺术家在画风景画时,你会希望画作反映的是真实的景色。然而,在这幅画中,犀牛画的是自画像,而不是眼前的美丽风景。标题 “你看到的世界就是你自己 “进一步强调了这一笑话,寓意我们的感知是主观的,受到我们的身份和特征的影响。这幅画用这个成语创造了一种字面的幽默解释:犀牛真的看到了自己,并把自己画进了风景中。
再来让它们识别一张图。我让它们描述海报的内容和汉字。并且问它们美食来源于哪个城市。
这是 Gemini 的回答:
海报展示的是一碗武汉热干面,这是中国武汉市流行的街头小吃。这种面条由小麦粉制成,通常蘸着用芝麻酱、酱油、醋和辣椒油调制的咸酱食用。面条上通常会淋上猪肉末、腌菜和花生。
海报中央是一大碗面条,上面写着 “美中食华 正宗特色小吃 武汉热干面 面条劲道 中华好味道”。海报右下角还有一个中国食品网的小徽标 “中华好味道”。
总的来说,海报是宣传武汉热干面的一种简单而有效的方式。大碗面和上下的文字清晰醒目,中华美食网的标识也增加了可信度。
答: 海报展示的是一碗武汉热干面,这是中国武汉市的一种流行街头小吃。
下面是 GPT-4 的回答:
海报的中心画面是一碗面条,上面点缀着香草,可能还有肉末。背景是有纹理的灰色,周围散落着红色的辣椒和一些绿色的草药,暗示这道菜可能是辛辣和新鲜的。在面条的图像上方,有一个红色字体的大型汉字,通常与食品相关的广告都会使用这种字体,以引起人们的食欲和传统感。
醒目的红色字体很可能传达了菜名或与之相关的口号。遗憾的是,我看不懂汉字,无法提供翻译或确定这道菜来自哪个城市。不过,这道菜本身很像 “热干面”,而 “热干面 “是中国湖北省武汉市的一道招牌菜。这道菜以芝麻酱和酱油调味而闻名,具有独特的咸鲜风味。如果文中提到这道菜,那么它很可能与武汉有关。
总的来说,Gemini Pro 的识图能力比 GPT-4 稍微差一点点,但是比 GPT-4 更能识别中文。
中文的支持力度
我找了一首许渊冲先生翻译的《天净沙·秋思》的英文版,并让它们翻译并介绍作者。
下面是 Gemini 的回答:
Gemini 回答很准确,只不过从谷歌图片里抓了一些不太相关的图来配这几句诗,显得有点尴尬。
下面是 GPT-4 的回答:
从这个例子,大概可以判断出,Gemini 对中文更加友好。
总结
Gemini 相比于以前的 Bard 来说,确实提升巨大。此前,我基本很少用到 Bard。偶尔会拿他来识图。Gemini Pro 目前相比于 GPT-4 来说,还是会逊色,不过很多方面都超越了 GPT 3.5。
不知道之后的 Gemini Ultra 相比于 GPT-4 来说会怎样?我个人认为还是会略逊于 GPT-4。
本文我还没有对比它们周围的生态。Gemini 目前基本没什么插件,还没有形成比较成熟的生态。但 ChatGPT 的生态日益成熟了。最近新添加的功能 GPTs 让每个人都能造 GPT 提高生产力。
对于用户来说,现在除了 ChatGPT, Claude 2 之外,又有了一个免费的 Gemini,真是太棒啦!
如果对 AI 感兴趣的话,可以加我微信vito_chat加入我们的免费交流群,一起沟通学习。