TL;DR:
泛文科内容(文学内容、单纯涉及到文字,不包含逻辑推理能力):Bard ≈ GPT-4 > 文心一言
泛理科内容(生物、化学相关问题,涉及到明确知识点的;涉及到逻辑推理的;涉及到数学物理计算内容的):GPT-4 > 文心一言 ≈ Bard

一、引言

在之前我写了一篇关于文心一言的体验小记,有幸上到了首页,当时的文心一言确实有一些优点、也有很多值得改进的地方;而就在写稿的昨天,也就是7月13日,全球四大科技巨头之一的 Google,让自家的Google Bard 支持了中文对话。
Google Bard使用了Google推出的名为PaLM 2的LLM模型,其支持多种语言,类似于OpenAI的GPT,不过目前还不支持联网,也没有插件可供使用。
而截止到写稿的时间,Google已经为Google Bard做了中文界面的适配(这一点从某种意义上来说甚至领先于ChatGPT)。

官方中文界面


那既然 Google Bard 支持了中文,按照惯例,我们肯定是会测试他的中文能力。测试的内容和上一次测试文心一言的Prompt大同小异。不过在此之前,有必要来说一说Google这家公司对于AI的“痴迷”。
说起来,Google其实一直都很关注AI这个领域,从 Google 相册中的各种「奇妙功能」,到 Tensor 芯片反复提到“AI”,再到Google对于LLM持续的研究,并且退出了Transformer 模型(ChatGPT的“祖宗”),都说明了这家公司内部对于AI的布局是十分全面的,那Bard作为一款Google正式向公众推出的LLM模型,自然也代表了Google对于目前LLM领域的较为前沿的探索结果。因此我从一开始就对 PaLM(现已升级为PaLM 2) 这款模型十分好奇,也一直在等待着中文适配,期待着第一时间来看一看Google到底能有什么水平,毕竟 “是骡子是马,拿出来遛遛”嘛。

二、实际体验

Bard 的官方宣传词为:Bard 是为你提供创意启发和实用信息的好帮手。无论是激发想象力、提升工作效率,还是实现创意构想,Bard 都可助你一臂之力。它还能帮你规划生日派对、撰写邀请函、列出做决定时的考量因素,以及轻松理解各种艰深主题等等。
因此,与上次类似,我还是按照官方宣传的功能相对应的能力进行测试,主要有以下几个方面:文学创作能力(创造力)、逻辑推算(逻辑能力)、中文理解(沟通能力)、记忆类学术问题(知识储备)。

1. 文学创作能力

既然说到文学创作能力,那么科幻小说必然是最能体现AI想象力和创造力的文体。不过,与上次测试文心一言类似,为了检查Google Bard 是否听话,还增加了一些约束条件。

🔑 Prompt:请你生成一个科幻故事,以「你好,宇宙。」作为结尾的最后一句。

在这个Prompt中,如果Bard想要生成一个满足条件的、且有趣的科幻作品,还是一种挑战。
先来看看GPT-4给出的答卷。


再来看看Bard的生成内容:

生成的结果只能算是差强人意 (特别说明,这个词的意思没有用错) 。相比文心一言来说,至少「你好,宇宙」出现在了最后一句,虽然出现的位置是句子的前半部分;但相比于GPT-4还是稍显逊色,不过考虑到GPT-4是代表着砸钱最顶端的语言模型,Bard的生成已经算令人满意了。另外一点,Bard 的生成内容也是类似于「小说」的形式,而不是像有些语言模型那样完全就是在以第三人称视角平静的叙述一个故事。所以总体来说,我对于Bard 的文学创作能力还是满意的。

2. 逻辑推算

逻辑推算一共分为了两个部分,分别是数理逻辑推算日常行为逻辑推算。数理逻辑推算是一些数学方面的基础性问题,而日常行为逻辑推算则是一些类似于“逻辑能力测试”的内容。

a. 数理逻辑推算

在这个测试部分,我还是给GPT-4和Bard出了与上次一样的一道初中最基本的一次函数问题。🔑 Prompt:请问一次函数 y=3x+3 与 X 轴的交点坐标是多少?
先看GPT - 4 的表现:


可见GPT - 4 对于这种最基础的初中数学问题的应对还是游刃有余的。接下来来看看 Bard 的表现:


我原以为 Bard 会比较擅长数理逻辑相关的问题,没想到的是, Bard 的数理逻辑能力竟然与文心一言差不多,都输出了一个错误的答案。

b. 日常行为逻辑推算

在这个部分,我用了一道比较常见的逻辑推理题:

🔑 Prompt:有一个 3L 的烧杯和一个 5L 的烧杯,如何得到 4L 水?
GPT - 4 自然是完美解决:


说明无论如何 「砸钱造LLM」 的OpenAI还是处于绝对领先的位置;而Bard的表现就比较羸弱了:

这个回答简直和文心一言的回答有异曲同工之妙:


看来, Bard 的逻辑能力,还有很多能够提升的地方啊。

3. 中文理解能力

a. 白话文理解能力

和上次测评文心一言的Prompt 一样,还是用了这个较为常见的场景:

🔑 Prompt:情侣中一方对另一方说这句话是在什么语气下,是什么意思:这句话是什么语气、什么意思:“你要是还不来,就给我等着吧!”
在这句话里,「你给我等着吧」有一种略微的威胁、生气以及有些开玩笑的语气成分在
照例,GPT - 4 的回答:


GPT -4 确实感受出来了这其中的语气变化;而 Bard 也在这时显示出了他的实力:


个人认为,Bard 在这次生成的内容中,把生气、无奈、开玩笑这三个情感总结的很好,因此我是觉得 Bard 这里的回答是要比 GPT - 4 强的,毕竟还考虑到了语境的因素。

b. 古诗文理解

与上次一样,还是选了《茅屋为秋风所破歌》的最有名的一句诗歌:
🔑 Prompt:「安得广厦千万间,大辟天下寒士俱欢颜」表达了什么样的情感。

惯例,先是 GPT - 4:


Bard:


虽然文学这种东西是不同的人不同的理解,不过单纯从回答的角度来评价,Bard 不仅翻译了这句话的意思,并且说明了作者的生活背景,甚至还拔高了立意,是一个很完美的回答。

4. 记忆类学术问题

既然在介绍中提到了「轻松理解各种艰深主题」,那么就考考Bard一些学术相关的问题吧。

🔑 Prompt :一患者左眼直接、问接对光反射均消失,而右眼直接、间接对光反射均存在,其损伤部位可能在
 

GPT - 4 答案
Bard 的奇怪回答


在这道题里,GPT - 4 无疑给出了正确的答案;而 Bard 虽然草稿1并不是正确的答案,不过草稿2确实是选对了。不过,如果按照使用场景来看的话,这种题我是不会才问AI的嘛,你给我两个答案是什么意思!🌚
所以总体来说,Bard 在这方面还有努力的空间。

三、总结

简单总结下,Bard 相比于 GPT - 4 模型,在数理逻辑、逻辑推理、学术问题方面,肯定是不足于一直在“堆料”的GPT的。不过由于 Google 庞大的数据库,其Bard使用的PaLM 2模型在中文语言理解和生成上有着不错的表现,甚至可以和GPT - 4打个来回。
如果是文科或者是单纯涉及到文学的作业,用Bard 的效果可能会比 GPT - 4更好,而一旦涉及到理科和逻辑相关的问题,Bard 的能力就远远不如 GPT 了,基本上和文心一言是相同层次的。
所以,很遗憾,那个创造出ChatGPT祖宗,Transformer模型的公司—— Google ,自己的AI 产品 Bard,综合来说还远远不如ChatGPT。
这一次,Google 输了。