今天,ChatGPT 三岁了。但人们也累了。

不是「AI 怎么用」的累,而是那种被迫保持兴奋的累。

巨头们几个月就要升级一次他们的模型,用普通人不熟悉的指标评分,告诉我们:模型更强了,AGI 更近了。

可我们真正感受到的是什么?

谁在定义AI的「强」?

社交媒体:网上最兴奋、声量也最大的是媒体人、程序员、科技行业从业者们,他们本来就每天和信息打交道,AI 能帮他们写稿、画图、写代码,他们有理由认为「AI 改变了一切」。但如果我们去问建筑工人、餐厅服务员、网约车司机呢?

大模型公司:扎克伯格说超级智能触手可及,奥特曼说知道如何实现 AGI。他们需要资本市场继续相信这个故事。

各行各业:一位亚马逊中层坦言:高层宁愿盲目跟投,也不愿承担「错过 AI 浪潮」的风险。红杉合伙人 David Cahn 警告:FOMO 情绪正在把全行业押在一条路上。

AI 成了一个「不行也得说它行」的东西。不过幸好这些大模型公司还有一个共识:用评测集来看它到底行不行。

为什么跑分说明不了问题?

我们都考过试,测过智商,也知道分数的诱惑:98 分比 97 分强,这看起来客观、可信。

但问题在于,这些数字只是用来比较的刻度,它们本身并不能告诉我们「智能」到底是什么。

大模型的评测集也是一样。模型可以在数学推理、代码生成、知识问答上狂飙分数,甚至超过我们。但这些评测集衡量的,都是同一种能力:在既定框架内把问题解得更快更准。

图片

问题在于,就算这种能力刷到了 99 分、999 分,也不等于科学革命,因为科学革命从来不是靠做题实现的。

科学革命的最大误解:不是盖楼,是炸楼

教科书常把科学描绘成盖大楼:牛顿打地基,爱因斯坦盖二楼,后人在此基础上添砖加瓦。

但这是错的。

真正的科学革命不是在旧体系上盖楼,而是把地基炸掉。

图片

科学史家托马斯·库恩对此解释得很清楚1科学真正的革命从来不是把同一套题做得更快更准,而是彻底换一种理解世界的方式。

这就是范式(Paradigm)。

图片

范式最本质的任务是告诉科学家一些共识:什么问题才是「科学」的,什么答案才是「合理」的。

一旦共识达成,大家就不再争论「力是什么」,而是专注于套用 F=ma 解具体问题。这就是常规科学,也是科学界日常的大部分工作。

别小看这种工作,它是科学积累的基础,避免了学科沦为各说各话的民科猜想。

但它也永远无法产生新范式。

AI天生就是,也只能是常规科学家

常规科学要竭尽全力做的,就是库恩说的解谜:利用范式提供的规则,把观测到的现象塞进理论框架里,比如水星轨道偏了?加个修正项。实验数据不符?调整参数。

它追求的是消除模糊,让理论与事实相符,而非颠覆。

AI 天生擅长这种事。

知名数学家陶哲轩用 AI 辅助研究,效果确实不错。但细看就会发现,这些问题都有共同点:结构明确、路径清晰,只是需要计算、检索或大量尝试。

图片

AI 在陶哲轩的研究中,没有提出新的数学对象,没有引入新的思想工具,也没有重新定义问题本身。它还是在「范式内加速」,只不过效率更高了。

科学革命需要什么?

那科学革命是怎么发生的? 常规科学本身不能诞生革命,但它有个很妙的作用:越是死板,越容易发现问题。

因为常规科学越是想把一切塞进既定的盒子里,就越容易发现有些东西塞不进去。

事出反常必有妖,先得发现反常(Anomalies),才能去找那个(新范式)。

随后,两种关键情绪来了:「失灵的感觉」与「不安全感」。

19 世纪末,麦克斯韦电磁理论与牛顿力学的矛盾2让物理学界集体陷入这种焦虑。爱因斯坦关注的不是某个技术细节,而是他确信:旧范式从根上就错了。

图片

失灵来自对「这套解释行不通了」的质疑;不安全感,则来自必须「砸烂一个旧世界」的觉悟。

这正是 AI 无法复刻科学革命的原因。因为新范式的诞生,从来不是靠证据堆出来的,而是依赖一些无法量化、甚至本质上非理性的特质,比如信念和审美。

信念

那些最早追随新范式的人,必须无视现有证据,去相信一个尚未被证明的东西能够成功。这种选择只能基于信念。

哥白尼提出日心说时,手里的证据很薄弱,预测精度也不高,并不比地心说更有说服力3,甚至面临两个当时的致命硬伤:既观测不到恒星视差,也解释不了「若地球自转,为何垂直抛出的石头不落向后方」的力学悖论。

伽利略因坚持哥白尼的学说遭到教会的审判
伽利略因坚持哥白尼的学说遭到教会的审判

但他依然坚持。不是因为数据,而是他深受新柏拉图主义与毕达哥拉斯学派的影响,他坚信太阳居中让宇宙「更和谐、更简洁」。 这靠的不是计算,而是一种近乎宗教般的信念。

OpenAI 前首席科学家 Ilya Sutskever 在这周的播客中也提到类似的意思:

因为如果你总是相信数据,有时候你做的事情是对的,但代码里有 bug。你不知道有 bug。你怎么判断是不是有 bug?你怎么知道该继续调试还是该得出结论说方向错了?靠的就是自上而下的判断。你可以说事情必须是这样的。某种东西必须有效,因此我们得继续下去。这就是自上而下,它基于这种多方面的美和来自大脑的启发。

这种信念,与一些互联网公司看好 AGI 前景的「信心」截然不同。因为他们更多是基于利益的战略押注,没前景的业务就砍了。

而坚信科学革命的人,往往毫无退路。只有具备这种信念,你才敢在证据不足、所有人都说你错的时候,孤注一掷地坚持:「这个旧世界,从根上就错了,砸烂它,新世界才能出来。」

图片

审美

爱因斯坦 1905 年提出狭义相对论,1915 年提出广义相对论。但真正的实验验证要等到 1919 年的爱丁顿日食观测,才证实了广义相对论的预言。
 

狭义相对论的验证要更漫长,没有决定性的单一实验,而是靠光速测量、时间膨胀、粒子寿命等零散证据,跨越几十年,一点点累积。

这意味着什么?追随爱因斯坦的科学家真正相信的不是确定性,而是理论本身的结构美:一个更简洁、更优雅的世界观。

正如 Ilya 前面所说,我们必须有一种自上而下的判断能力,这种能力来源于研究品味(research taste):

你会问自己,某个东西是根本性的吗?事物应该是什么样的。我想这一直在相当程度上指引着我,从多个角度思考,寻找某种美和简洁。丑在这里没有容身之处。

前 Meta FAIR 研究科学家田渊栋也在这周的播客中说:

研究品味是一种直觉感知,帮助你在模型泛化和 scaling laws 的不确定性中,优先选择有前景的方向。它让科学家能够融合第一性原理思考和高效实验。

对于追求确定性的大模型来说,它能否理解信念、审美这几个字的分量?

结语

相对论同一时期,还发生了第三次数学危机。罗素发现了集合论中的一个悖论4,直接动摇了整个数学的逻辑根基。

对当时的数学家来说,这是真实的存在性威胁,是毕生信仰的东西突然站不住脚了。弗雷格5收到罗素的信时,整个人都崩溃了。

而 AI 呢?

当它写出一个错误的物理公式,它会感到焦虑吗?当它无法解决一个逻辑悖论,它会感到挫败吗?当它批量生产的论文被审稿人拒掉,它会在午夜辗转难眠吗?

对它来说,「数学危机」只是训练数据里的几个 token。它不会体验「天将降大任」的兴奋,也不会经历「世界错了」的痛苦。

它做的只有一件事:用更强的算力,加速巩固现有的知识。

它能帮你盖楼,但永远不会,也不可能炸楼。

本文首发语言学公众号「言辞之间」

 

20
2