如果今天的大模型是「现代智能」,半个世纪前的计算机就是「远古机器」。
面对充满歧义的人类语言,远古机器束手无策,既没有海量参数,也无法通过数据自我训练。
人们只能寄希望于理性,寻找语言背后的完美规则。但现实残酷:规则总被例外打破。
直到 1957 年,一个 28 岁的年轻人决定再试一次。
语言是数学吗?
他叫诺姆·乔姆斯基。

他认为,当时人们研究语言的方法全错了。语言不是一堆简单的现象可以随意归纳,而是像数学公式一样,拥有精确而内在的结构,但这种想法,在当时并不被认可。
他花费数年写的书稿被 MIT 出版社拒绝,理由是「完全不懂你的理论,它不属于任何现有领域。」
幸运的是,一家荷兰出版社的编辑正好访问 MIT。他无意间看到了乔姆斯基的课堂讲义,出于好奇随口问道:「这些能不能出版?」
1957 年,《句法结构》问世。这本 120 页的小册子提出了短语结构文法(PSG),认为每个句子像俄罗斯套娃,可以层层拆解到最小单元。

乔姆斯基认为,语言仿佛一只复杂的机械手表,只要拆解到每个零件,弄清它们如何协作,机器就能真正理解语言。
理性主义的短暂高光
这套理论一下子点燃了语言学和计算机科学界,乔姆斯基让他们相信,每个人脑中天生就有一套「普遍语法」,语言能力并非后天习得。
他还认为语言解析可以独立于上下文,即所谓的「上下文无关规则」(CFG)。这让语言第一次看起来像一门可以被精确建模的科学。
在接下来十几年里,自然语言处理全力走向规则驱动路线。然而,他们很快就撞上了现实这堵墙。
1966 年,美国科学院的官方评估(ALPAC 报告)指出:十年来机器翻译研究进展微弱,语言复杂到令人绝望,靠人为规则穷尽所有可能,根本不现实。理性主义迅速跌入低谷。
但语言研究并未就此止步,人们开始反思:也许,理解语言最有效的方式,就是放弃「理解」本身。

最好的理解就是不理解
理性主义遭遇挫败后,人们开始寻找新出路:既然规则太难制定,干脆不要规则了。
上世纪 80 年代,IBM 的研究员们想出一个大胆又粗暴的办法:
他们不再教机器复杂规则,而是让机器记住语言的使用频率和上下文。一个词经常跟哪些词一起出现、在什么情况下使用,只要统计足够数据,机器就能像做概率题一样猜出下一句话。这种方法意外成功了。
IBM 的研究员杰利尼克甚至戏谑地说:「每解雇一名语言学家,我们的机器就更准确一点。」
这条路叫做经验主义。它来自哲学传统,强调知识来自实际经验而非抽象理论。经验主义的语言研究者认为:语言并没有隐藏的绝对规则,只是一种频繁使用的习惯和模式。

乔姆斯基讽刺这种做法「就像学会骑自行车却不懂物理规律」。经验主义者反驳得更犀利:「如果你们的规则始终无法有效解释真实语言,那所谓的理解究竟有什么用?」
从语音识别到机器翻译,经验主义一路攻城略地,迅速成为主流。靠简单的概率模型和大规模语料,机器第一次变得「可用」起来。不过要让它真正「学会」语言,经验主义还需要一次更深的飞跃。
1986 年,深度学习奠基人杰弗里·辛顿与同事提出反向传播算法,模拟人脑神经元连接,让模型在数据中自行学习语言使用的统计模式。尽管当时效果有限,但它为后来的深度学习和大模型打下了方法论的基础。
也许最好的理解,就是根本不去理解。
不讲规则,只讲关系?
不过,不讲规则,不代表不讲结构。语言的表达仍然需要某种清晰的表示方式。于是,依存文法重新被重视。
它不像乔姆斯基那样层层拆解句子,而是直接建立词与词之间的依赖关系。比如「这个孩子很难过」中,「难过」是中心词,「孩子」和「很」分别依赖于它,简单明了,正契合数据驱动的建模思路。

这种强调「词与词关系」的思维,也正是注意力机制(Attention Mechanism)的前身。
2017 年,谷歌提出 Transformer 模型,用注意力机制替代了传统的局部建模方式。 模型不再只看附近几个词,而是让每个词「看见」整句话甚至整段话的所有词,从中判断谁更重要、谁更相关。

它不依赖语言规则,也不预设语言结构,而是通过训练自然学出模式。这种「不讲规则,只讲关系」的方式,彻底颠覆了乔姆斯基早年提出的「上下文无关」理论。
至此,经验主义暂时终结回合。它证明了:理解语言,或许根本不需要理解,只要能复现它的使用关系就够了。
结语
经验主义的胜利,值得认可,也不得不认可。它教会我们,语言模型的成功未必依赖「完美的理解」。
但如果我们想走得更远,取得真正意义上的突破,可能需要再次直面语言本身。
这并非出于某种怀旧或理想主义的浪漫,而是因为语言的标杆与参照,从来都是我们自己。
