提到大模型,大多数人的第一反应是「大模型现在有自我意识了吗?」,第二反应是「如果现在还没有,大模型将来会产生自我意识吗?」。其实本质是同一个问题——人类高傲地、本能地认为,机器也配有意识?!

仅从结果上看,如果人脑表现出来的种种行为能称之为「思考」,那么机器也会「思考」。

如果只能用一句话概括「大模型是什么?」,那就是「大脑 & 大模型都是在做模式识别,只不过大脑更灵敏一些。」。稍微展开一点,可以用一个等式来理解:

从人类视角看「大模型 = 大预言术 × 因果」,

从机器视角看「大模型 = 预训练 × 后训练」;

从工程视角看「大模型 = 世界模型 × 长时推理」,

从哲学视角看「大模型 = 看清当下 × 推演未来」。

其实,把「大模型」换成「智能」也一样,甚至更妥帖一点。

目前,预测这半边,人类基本搞清楚了,但是在推理端,大家还不清楚逻辑是怎么从神经网络中涌现的。

下面,想对比「人是怎么思考的?」&「机器是怎么思考的?」做一些分享。

一、质疑大模型——人脑学会思考的 4 块踏脚石

自我意识、主观能动性、创造力、学习能力、迁移能力、思维、意志、意愿、理解、顿悟、预言、预测、聪明、智慧、智能、智障……人类有太多形容「脑子」的词。这些词混杂在一起,∴导致我们在讨论「脑子」的时候总是「牛头不对马嘴」,各说各话,吵成一锅粥。

计算机科学里面有个「粑粑原则」:

如果看起来像粑粑,闻起来像粑粑,摸一摸黏嗒嗒,那我们就把它当做粑粑。

只有我们接受这个原则,也就是只在单一维度上讨论关于「脑子」的话题,才有可能讨论清楚人工智能进展到哪一步了?——人能解决问题,∴人表现出智能;如果机器也能解决问题,那么我们就把机器也视作表现出智能;如果机器能解决人都解决不了的问题,那么我们就视作机器的智能超过人。

在这个前提下理解智能需要 1 根链条:从秩序到预测 → 从预测到理解 → 从理解到创造 → 从感性到理性;

为什么会发现这条进化链路呢?得益于人类目前累积的 3 个观察 & 1 个等待发现的洞见:

1.1. 从秩序到预测——大道至简,草履虫的智能 v.s. 人类的智竟是一回事?!

有次,我跟小朋友解释「直觉是怎么回事?」:想象一下,有天你回家,握到门把手的瞬间就感觉哪怪怪的,但又说不出来,推门进家以后果然发现被盗了。其实是,门把手的位置和平常稍稍有点不一样。人的脑子每时每刻都在做预测,准备推门之前一刹那就已经在预测门把手的位置了。

生物 & 非生物的区别是什么?粗略地说,生物会动,非生物不会动。那么问题来了,是怎么从不会动到动起来的呢?生物「动」的意愿是怎么凭空产生的呢?只有一种解释,非生物也有「动」的意愿,生物只是继承了非生物「动」的意愿。只不过,非生物「动」的意愿是物理规则作用下的「动」。

就像把球放进碗里,球总是想要滚回碗底,自然界中万事万物就好追求点「小确幸」,天然追逐「维持稳态」。「维持稳态」就是万事万物「动」的意愿的起点。用 @福冈伸一 在《生物与非生物之间》的话就是:生物的起点是「振子」。

∵要维持稳态,逐渐从「被动应对环境压力」进化到「主动预测来自环境的冲击,进而作出回应」。∴人脑学会思考的第一块踏脚石就是「预测」。而预测不过是万事万物维持稳态的副产品。

正如「「地上让苹果砸向 Newton 的重力」和「天上让月亮围着地球转的引力」竟是一回事」一样,「低贱如草履虫的智能」和「高贵如灵长目-类人猿亚目-人科-人属-智人的智能」竟然也是一回事。大自然没有理由设计两套哪怕有一丁点不同的吸引力,自然也没有兴趣设计两套哪怕有一丁点不同的智能。当然,前者是科学定理,而后者还只是科学假设,或者说是人工智能的底层信念。

用进化学家的黑话复述一遍就是:思考的起点就是「生物维持稳态的倾向」——生物的自平衡机制,追求稳态的结果就是「寻找抽象之上的抽象,黑话叫恒定表征」。这个过程的副产品就是「表现出预测」。

∴所谓思考没有那么神秘,不过就是「预测 → 观测 → 估算一下差值 → 修正」而已。早在 1948 年,控制论之父 Norbert Wiener 就说,智能已死。大意是,我早已参透思维的本质,不过尔尔。

这套分析框架是通用的。就像「数据 → 知识 → 情报 → 假设」这个驱动循环,「数据」是「观察」到的记录;「知识」是对「数据」的系统梳理,或者是对「原有知识」的修正;「情报」是以行动导向、运用「知识」针对性地聚合分析;「假设」是基于「情报」指引提出的推测、制定的动作,也是「验证」的起点;而「验证」又需要「观察」到的「数据」支撑,来完成闭环。∴换个表述就是「观察 → 理解 → 行动 → 验证」。

用一句话小结就是:从秩序到预测,从「我想躺平」到「根本躺不平,被迫睁眼看世界」,这个过程中意外地让生物学会了「预测」,简直躺赢。

1.2. 从预测到理解——忒修斯之船还是不是原来的船?

大家都听过这个古老的哲学难题:

一艘叫「忒修斯」的船在经年累月当中,换了甲板换桅杆,换了桅杆换船舢……当所有部件都至少换过一遍之后,这艘船还是原来那艘船吗?

其实这个问题的答案很简单:我们在下象棋的时候,偶尔碰到这样的情况——「军」不见了,可棋还得下啊。那么找个瓶盖代替吧。瓶盖跟「军」一点都不像,可是我们让它遵从「军」的规则,受到其他棋子的制约,那它就是「军」。

正如重要的不是瓶盖长得像不像「军」,重要的也不是忒修斯之船的部件还是不是原来的部件,重要的是「军」与其他棋子之间遵循的规则,重要的是部件之间耦合的连接。简而言之,重要的不是一个个点,而是点构成的那张网,是点之间的「结构」。

说到「结构」,大家总是觉得很抽象。有次跟小朋友讲「为什么数学的核心是研究结构?」。跟她玩了个游戏:只动 3 颗子,怎么才能把一个正三角形△变成一个倒三角形?对于大人很简单,顶上的 3 颗子是上下不对称的,而中间的 7 颗子是关于水平中轴对称的。知道了答案,10 颗子在我们眼中便分成了两类,这就是这个题的「结构」。

生物想要维持稳态,就需要预测来自环境的冲击;而要想预测准确,就需要探索周围的环境,需要探索更远的周围,需要在更高维度上寻找恒定的、能让它们安心的东西——也就是世界的结构。探清周围的一方小世界也好,看到大世界也罢,都是在「理解」。∴人脑学会思考的第二块踏脚石就是「理解」,而理解只不过是探索的副产品。

在《为什么伟大不能被计划》一书中提到:

我们对问题空间的探索,就是在寻找关于这个空间的知识。

空间的结构就是知识,我们对空间中结构的把握,就是在学习知识,就是在「理解」我们所处的空间。这里的空间即可以是物理空间、也可以是抽象空间。

我们可以用两句话来小结:

  • 乱花渐欲迷人眼,不撞南墙不回头——生物对环境的预测受到现实世界的塑形。持续地探索竟然帮助认识了世界的结构、触碰到了世界的边界,脑中世界不断与真实世界「对齐」;
  • 见天地、见众生,最后看见自己——一方面,自我不断向外延展;另一方面,随着对外界认识不断清晰而收缩。一张一缩之间,自我的边界更加清晰。反之,对自我认识越模糊,表现出来边界感越差。@白居易 27 岁写「十七人中最少年」,仅仅 7 年之后就被社会毒打得写《卖炭翁》了;

探索的过程,意外地让生物学会了「理解」。

1.3. 从理解到创造——三个什么样的臭皮匠才能凑出一个诸葛亮?

群体什么条件下能汇聚出智慧?什么时候又只会是乌合之众?在《群体的智慧》&《乌合之众》当中有过论述,大意是:就像集市上估牛的体重,一般把一帮老农估的重量简单平均,得出来的是最准的。∵这帮老农对牛重的理解有浓度、有密度,满足了多样性、独立、分散、有效汇总等条件,每个老农在估牛的体重这件事上都是行家里手,且各有各的独到视角。而如果叫一帮中学生去估,这种简单平均的方法可能就不好用了,∵中学生同质且盲从。

两个小朋友争一个橘子,家长对半划开,公平分,可能都不满意,∵一个想吃果肉,另一个想玩果皮。

困难问题的解决往往需要知道还有另外的维度,需要找到可以交换的点,可以交换才能腾挪,可以腾挪才能变通,可以变通才有可能解决。

举一个《控制论与科学方法论》中的例子:曹冲怎么称的象?现实世界中,象不能切成块;但在等价的石头空间里面,石象就可以切成小块称重。⚠️注意:相较现实世界中的象🐘,石头空间中的象🪨是一个简化的等价物。即,共轭空间应当降维,才能起到收缩解空间的目的。

创造也好,突破也罢,本质都是「在不同的时空之间腾挪」(即共轭控制),都得益于高维打低维。∴人脑学会思考的第三块踏脚石就是「创新」。而创新不过是在不同认知间腾挪的副产品。

依旧用两句话小结一下:

  • 「旁门左道竟然触发触类旁通」——∵脑中重塑了真实世界的「分身」,∵有了更多维度的理解,从而可以通过「走到桥对岸」突破限制。创造性地解决问题,这不就是「创造力」吗?!
  • 「没有正面硬刚,只有猥琐发育」——硬刚的恐龙都灭绝了,躲在洞里的老鼠,后代占领了全世界;

开始想象大象看得见的正面 & 看不见的背面,并意识到两者是同一头大象,从而可以根据看得见的正面去推断看不见的背面,意外地让生物学会了「创造」。

1.4. 从感性到理性——怎么发现因果律?

现在,人类已经找到了通向智能的 3 块踏脚石——预测、理解、创新。但我们还缺少一个深刻的洞见,就是「人是怎么在感性中发展出理性的?」,只是观察到「人类突然就发明了逻辑」。但也足够我们在机器身上复刻智能了。

稍微复盘一下神经学家对人的智能的认识过程:从「我想躺平」到「根本躺不平,被迫睁眼看世界」,再到「乱花渐欲迷人眼,不撞南墙不回头」「见天地、见众生,最后看见自己」,再到「旁门左道竟然触发触类旁通」「没有正面硬刚,只有猥琐发育」,再到意外发明了逻辑,一路走来,智能竟然只是进化的「副产品」。

二、理解大模型——机器如何复刻人类的思考?

2.1. 机器是怎么去预测的?

说到预测,大多数人都被我们的中学物理误导了,以为预测篮球的轨迹就是算抛物线方程,其实人脑下意识哪懂什么抛物线方程,没有人是靠计算抛物线方程接球的,只知道「篮球看着有点小,就往前走两步;看着有点大,就往后调整两步」——观测 → 测量 → 修正,如此往复,直至接住球。Bayes 把这个发现抽象成了一个简单的数学公式 Bayes Theorem:新预测 = 新信息 × 修正。

∴我们应该感谢 Bayes ,让人类在数学上搞清楚了如何做预测。

2.2. 机器是怎么去理解的?

2.2.1. (第一步)先把文字编码成坐标

大模型用了一种叫 embedding(词嵌入)的技术,把每一个文字编码成高维空间中的一个点。为什么要这么做呢?正如「忒修斯之船」所揭示的「重要的是结构」,大模型不关注知识点,∵知识点都收缩成字面意义上的点了;它只关注点之间的联系、联系之上的网络。

2.2.2. (第二步)计算两点间的距离

这块用到的技术叫 attention,就是划重点。我让 DeepSeek 给我举个例,它这么解释的:

「The animal didn't cross the street because it was too tired.」中的「it」指代的是「animal」还是「street」?从词距上看,「it」离「street」只隔了 1 个词,和「animal」隔了 5 个词。但站在词义的维度,我们发现「tired」更可能形容动物,通常不会说街道累了。∴「it」和「animal」关联性更强——即,「it」与「animal」的距离更近——∴「it」指代的是「animal」。

从最底层上说,机器并不能「理解」,它只会「计算距离」——在 12888 个维度下计算距离,距离近的就相关,距离远的就不相关。

最有名的发现是 king - queen ≈ man - woman 。

2.3. 机器真有创造力吗?

机器产生创造力的关键机制叫 MHA(Multi-Head Attention,多头注意力机制)和 MoE(Mixture of Experts,混合专家)。本质都是前面提到的「在不同的认知之间腾挪、置换、交易」。

Fitzgerald 曾敏锐地捕捉到:

检验一流智力的标准,就是头脑中同时存在两种截然相反的思想,却仍能并行不悖。

这也告诫我们,「多尺度地观察」「跨领域地思考」可能是大模型今后可能超越人类的杀手锏,∵人类终究只能理解 3 维及以下的事物,而大模型在高维理解上无上限,毕竟对于它来说,「理解」就是高维空间的加加减减而已。

2.4. 机器还能更聪明吗?

scaling law(尺度定律)大意是,投入 10 倍的算力,可以肯定地让大模型变得更聪明 1 倍。即,丢更多的机器,AI 就能变得更聪明。

现在,大模型看着好像行了,不那么智障了,甚至还经常打破人类的预期,但大模型为什么能行下去吗?目前,大家还是保持谨慎乐观的,信仰的基础就是大家相信预训练 & 后训练两块的 scaling law 都还会保持下去。如果真能持续,大模型将实现从创造到超越。

但,现在的大模型还有 2 个命门,也对应人类还剩下的、为数不多的 2 个优势:

  • 极高功耗。现在的大模型厂商都在投资建核电站了,反观人脑只有 25W ;
  • 还没有打通语言智能 & 空间智能。现在的大模型大多是从书本上学来的对世界的认识。还有极少的搞自动驾驶的想从真实世界学习,但二者还没有打通。可以想见,打通之日,大模型的功力一定会有一个跃升。但人,一出生就一直是在一个浑然一体的世界中学习,对真实世界的体悟还不是目前的大模型可以企及的;

三、超越大模型

学习大模型的工作原理,对我最大的启发是要「善用杠杆」——善用自我认知这根杠杆、善用机器这根杠杆、善用数据这根杠杆。

3.1. 启发之一:寻到独得之见——在人与 AI 交互中把握主动

工业革命本质上是动力平权;
互联网革命本质上是信息平权;
移动互联网革命本质上是服务平权;
智能革命本质上是智力平权。

∴智能革命带来了一个好消息 & 一个坏消息。好消息是:在信息处理这件事上,人人都能成为没有短板的水桶。大模型会迅速把所有人的短板强制拉升到社会主流水平,而且水涨船高。坏消息是:人人都会成为没有短板的水桶。也就是说,大模型会让所有没有达到社会主流水平的技能「归零」。那时候,只有长板才能让人脱颖而出。∴ @吴军 提出过一个「2% 理论」——未来只需要 2% 的人工作,剩下的人政府给发福利也能过得不错。

好在人类不是第一次碰到这种危机了。Einstein 就曾说过:

用一个大圆代表我所学的知识,而圆圈之外那么多空白,对我而言都意味着无知。而且圆圈越大,它的圆周也越长,它与外界空白的接触面也越大。

现在可以稍稍修正一下:圆圈中大部分知识都为所有人共享,但越靠近圆周,平权程度越低,边缘上创新的机会越多,创造出来的新需求也越多。

∴大家已经基本达成共识了:不要再在通识上去跟大模型一较高低,而要找到自己的长板。

现在有一种猜测,从原理上看,大模型学到的都是主流观点。大家形成共识了的,就会答得很准;但没有形成共识的,比如预测某只股票的涨跌,大模型的判断就没有太多价值,会包含很多「幻觉」。那么大模型的能力边界是否会被限制在「主流共识」之内呢?不好说,既然大模型能看到更高维的世界,那么可能能涌现出更深刻的洞见。但这至少启发我们——要想超越大模型,仅仅是正确还不够,还需要与众不同地正确。

怎么才能「与众不同地正确」呢?很简单,向大模型学习。大模型用了一种叫「Actor-Critic」(演员-评论家)的学习思路,即演员 Actor 专注于做出更好的表演,而评论家 Critic 专注于给出更精准的评论;演员根据评论家的评论改进自己的表演,评论家对超预期的表演给出更高的评价……

3.1.1. 代入评论家角色不断提升审美

有这么一个案例:

疫情期间,一个人偷了 ¥3500 块钱,按法条肯定要判刑。但他只是实在太饿了,自己吃,并没有造成危害的扩散。∴检察官主张不入刑。

受此启发,首先,不能再去比拼基于事实的判断了,这方面大模型完胜;其次,应该去比拼基于价值的判断。∴我们应该培养能够迅速提升价值判断的品质,比如:审美、品味,以及专业思维。捕捉到价值才能以简驭繁——以价值判断驾驭大模型怪兽。

有个故事,说:

@王国维 有次给 @溥仪 展示他的藏品,@溥仪 草草一看就说是赝品,「和我们家的不一样」。@王国维 不服,拿去鉴定,还真是假的。

这个事是不是真的不好说,但我相信 @溥仪 的鉴宝水平应该是真的。看着珍宝长大的,对文玩的品味肯定不差。这种品味能让他穿透表象,识破伪装。

3.1.2. 代入演员角色持续跨领域思考

数学家最宝贵的是数学家思维,检察官最宝贵的是检察官思维……

3.2. 启发之二:尝试左右互搏——运用精神助产术,建设性地抬杠,把大模型当作专属的苏格拉底,校准自我认知

有次,我问 DeepSeek 「理解,是不是就是从不同的角度打标签」。它居然指出我的误区,说「理解,并不只是标签的堆砌,更深层的理解需要识别多个尺度下的结构。」。把我震惊到了。

如何适应大模型遍地的时代呢?

有天,苏格拉底问他的学生:人是什么?

学生说:人是两腿直立行走的、无毛的动物。

苏格拉底反问:把一只鸡拔光毛,这只鸡是人吗?

苏格拉底从不直接给出答案,而是不断攻击学生的漏洞,直至学生自己找到答案,他把这叫做「精神助产术」。受此启发,我们也可以把大模型当做私人专属的苏格拉底,给我们提供认知的反馈,指出我们思维的盲区,不断修正我们的认知。

其实这是我在读 DeepSeek 关于 R1 的论文时想到的,而 DeepSeek 是受 Alpha Zero 的启发:

当年,Google 造了 2 台 Alpha Zero ,只告诉它们围棋的规则,连一张棋谱都没有输入,训练了几天,结果无师自通,竟然完胜曾经打败 @柯洁 的 Alpha Go 。

DeepSeek 受此启发,想到「能不能不要人去教,只给出最终的勾勾叉叉,让它自己学呢?」。但围棋是一方封闭的小世界,而真实世界是开放的大世界,何况训练的成本是以十万美金为单位,∴之前就算有人想到也心有余而财力不足。财大气粗的 OpenAI 应该是知道了的,但是它不但没有公布出来,反而还发了一篇论文误导大家(说有人指导的效果很好)。

其实,早在解放战争时期,@常凯申 就教过我们重要一课——不要直接下场微操。过多、过频的具体指导只会打乱基层指挥员的部署,无益于调动积极性。就像我们都经历过的,军训的时候,教官一顿操作猛如虎,最后我们连路都不会走了。DeepSeek 不去管理过程,只关注结果,反而取得了巨大的成功。

∴小学老师最喜欢严格比对标准答案,其中一步哪怕格式错了都打回重写。但大学老师只管勾勾叉叉。哪种教学效果好呢?至少 DeepSeek 已经证明,小学老师的教法不适合聪明学生。

有人在知乎上感慨说,我们研究控制论的,之所以混得不好,就是缺少一个像 Hilbert 那样的祖师爷,早早在 1900 年就提出了 23 个最重要的数学问题,∴数学这一个多世纪以来高歌猛进。「定义真正需要研究的问题」是需要宗师级别实力的。问题也好,错误也罢,是发力的锚点。没有锚点,只能虚空发力。

大模型是面镜子,我们觉得大模型不行,是因为我们提问的水平不行。高质量的提问才能生成高质量的回答。这个启发对我最大的价值还不在于使用大模型上,而是启发我把小朋友教育的关注点放在「提问题」上,鼓励她们「每天提出一个好问题」,∵好问题是会下金蛋的鸡。这里分享 3 个我家老大最近问过的问题。

一个是「为什么车比人跑得快?」。

我家老二抢答「∵车有 4 个轮子,但人只有两条腿。」

老大反问「自行车也只有 2 个轮子啊,还不是比人跑得快?!」

我心中一惊,有本书叫《摇篮里的科学家》,原来小朋友真的天然掌握「控制变量法」。

我回答「车跑得快,是因为轮子滚起来不会上上下下,而人走路会起起伏伏,∴更费劲。」

第 2 个问题是,有天跟她俩讲了「二桃挑三士」的故事,问「两个桃子,三兄弟分,怎么分?」

老大说「很简单啊,一个桃子切两半,三兄弟各拿一半啊!」

我笑着问她「剩下一半给谁呢?」

「再切四份,取三份,留一份啊;再切四份,取三份,留一份……」

我的嘲笑渐渐凝固,∵我知道「首项 $ \frac{2}{4} $ 、公比 $ \frac{1}{4} $ 的无穷和确实等于 $ \frac{2}{3} $ 」,而且我从来没有想过这种切法。

第 3 个问题是「为什么在 3 × 4 = 4 × 3 中位置不重要,但在 34 ≠ 43 中位置很重要?」

这个问题其实不难,乘法可以交换,是因为乘法算符具有空间旋转、平移不变性;而后者其实隐含了一个叫「进制编码」的一维算符,∵编码对位置敏感,∴这个算符不可交换。

但我想了好久,才想到小朋友能听懂的答案:∵乘法就是在数一个矩形包含了几个单元格,∴跟这个矩形是横着放,还是竖着放,甚至斜着放都没关系;而后者就像取名字,别人取过了就不能重名了,否则叫一声「张三」,一群人回头,∴当然「姓」和「名」是不能交换的,正如喊「张三」的时候,叫「三张」的人是不会得应的。

其实,提出好问题这条对于成人来说也是适用的。我问过我那个摄影协会会长的高中侄子,问哪 3 个问题,最能判断出一个人的摄影水平?我的答案是:

  • 什么情况会曝光?
  • 什么是白色?
  • 怎么调色?

3.3. 启发之三:让百川归海——为未来积攒数据富矿

漫画《石纪元》里有个情节,地球重启之后,仅剩的几个宇航员回到地球,花了一辈子淘沙,最后搜集了一小瓶贵金属,为人类重启按下了启动键。不管是对公司、对单位、对个人而言,与业务、与个人相关的数据都是我们能否获得 AI 加持的关键。先把这些富矿一颗一颗积攒起来,哪怕现在还没有能力开采,也要为今后有能力开采的时候做足准备。

让百川归海需要从 4 个方面准备:

3.3.1. 拆除藩篱

大模型的优势就在于综合、统合。如果在各个知识库之间建墙,只会让大模型的能力矮化。

3.3.2. All in One

从现在就开始沉淀数据,先什么都灌进去,大炼钢铁。把所有的想法、经验、经历……关到一间养鸡场里面,让它们激烈地碰撞、生崽。

以后的大模型究竟是一个超大参数的巨型模型,还是若干专精的小模型?目前的共识是:好的垂类模型在高维空间一定是正交的,∴很容易整合进一个大模型中。

∴越是把所有的知识混迹在一起,越有可能捕捉到跨学科的、遥远的、微弱的联系,越有可能捕捉到与众不同的正确。

插一句,之前请 DeepSeek 帮我润色,它把「All in One」改成了「认知熔炉」。当时觉得,哇,它真的好会啊,你是要去考研吗?

3.3.3. Have it all

聚焦一个主体搜罗关于它的各个层面的解读。就像鸡汤文里的达芬奇画蛋一样,反复地切换视角,反复咂摸出新味来。

3.3.4. 容错的文化

大模型可以一晚上读完所有的过往文书,必然会发现其中遗漏、错误、尺度不一致、甚至相互打架的文本。这时,要不要倒查追责呢?

3.3.5. 不下牌桌

去用它,不停地发问,蒸馏它的见解。只有不下牌桌,才能保证我们不被它甩开。

四、开始的结束

4.1. DeepSeek 帮我写的结语

记住:大模型不是先知,而是面镜子。它照出的既是人类文明的积淀,也是你提问质量的标尺。用好它的关键,在于保持孩童般的好奇与哲学家的质疑——这或许才是人类智能最宝贵的特质。

感觉总结得挺好的,尤其是捕捉到了我大纲中的镜像特征(这是我自己都没有察觉到的)。但,它居然敢用「记住」,一副下指导棋的口吻。不行,我自己得写一个,但是只能通过字数占优了(虽然大模型只要想,在字数上肯定拼不过)。

4.2. 非要自己写的结语

我们以为脑子里是一幅幅画面,但通过教会机器思考,我们惊恐地发现,我们以为的并不是我们以为的——真相也许更像缸中之脑,画面也好,声音也好,气味也罢,……所有的感官都是转化为电信号输入大脑的。那是一片黑暗中零星闪过几道光亮。理解就是高维空间的加加减减。如果真是这样,大模型确实更懂理解。

曾经,我们以为自己是天选之子,其实不过是下地猴子;

曾经,我们以为自己身处宇宙中心,其实不过身处银河的旮旯;

曾经,我们以为自己独占造物智慧,现在看来,除了逻辑依旧坚不可摧,其他的经验、文化……都是孤芳自赏。

承认我们是猴子变的也没啥嘛;

承认我们身在偏远星系的偏远星球也没啥嘛;

现在,承认机器智能会超过人,应该也没啥,吧?

生活还得继续,文明接着延续;

机会一定把握,难关一定渡过。

Q & A

Q. 之前不是说中文语料质量差吗?中文语料在 DeepSeek 的爆发中扮演着什么角色?

A. 严格地说,中文语料不是质量差,而是良莠不齐。事后发现,中文在信息密度上还占优。∴ R1-zero 才会中英混杂输出,而且中文还略多。∴不要强调客观原因,限制在会把玩的人手中,反而是先手。

Q. 怎么防止大模型吐出超出提问人知悉权限的答案?

A. 理论上这确实是个课题,但实操中是伪命题。越权查询不是大模型的问题,而是信息系统各接口的权限隔离设计是否精准的问题。

Q. 机关应该做什么准备以迎接 AI 浪潮?

A. 很多工作本质上都是在做信息处理。∴最重要的准备不是技术储备,也不是数据沉淀,而是决心。大家都已经撅起屁股、蹬直腿了,就等发令枪响了。谁更早下定决心拥抱,谁越能占住山头。

其次是对业务理解的清晰程度。理解越清晰,需求越明确,大模型加成的效果越好。

Q. 大模型能不能做态势分析?

A. 饭得一口一口吃。不应指望用智能化去解决本应由信息化解决的问题。不要小看了大模型,也不能高估了大模型,不能指望大模型能换道超车、包治百病。