远古机器如何理解语言？

如果今天的大模型是「现代智能」，半个世纪前的计算机就是「远古机器」。

面对充满歧义的人类语言，远古机器束手无策，既没有海量参数，也无法通过数据自我训练。

人们只能寄希望于理性，寻找语言背后的完美规则。但现实残酷：规则总被例外打破。

直到 1957 年，一个 28 岁的年轻人决定再试一次。

语言是数学吗？

他叫诺姆·乔姆斯基。

他认为，当时人们研究语言的方法全错了。语言不是一堆简单的现象可以随意归纳，而是像数学公式一样，拥有精确而内在的结构，但这种想法，在当时并不被认可。

他花费数年写的书稿被 MIT 出版社拒绝，理由是「完全不懂你的理论，它不属于任何现有领域。」

幸运的是，一家荷兰出版社的编辑正好访问 MIT。他无意间看到了乔姆斯基的课堂讲义，出于好奇随口问道：「这些能不能出版？」

1957 年，《句法结构》问世。这本 120 页的小册子提出了短语结构文法（PSG），认为每个句子像俄罗斯套娃，可以层层拆解到最小单元。

乔姆斯基认为，语言仿佛一只复杂的机械手表，只要拆解到每个零件，弄清它们如何协作，机器就能真正理解语言。

这套理论一下子点燃了语言学和计算机科学界，乔姆斯基让他们相信，每个人脑中天生就有一套「普遍语法」，语言能力并非后天习得。

他还认为语言解析可以独立于上下文，即所谓的「上下文无关规则」（CFG）。这让语言第一次看起来像一门可以被精确建模的科学。

在接下来十几年里，自然语言处理全力走向规则驱动路线。然而，他们很快就撞上了现实这堵墙。

1966 年，美国科学院的官方评估（ALPAC 报告）指出：十年来机器翻译研究进展微弱，语言复杂到令人绝望，靠人为规则穷尽所有可能，根本不现实。理性主义迅速跌入低谷。

但语言研究并未就此止步，人们开始反思：也许，理解语言最有效的方式，就是放弃「理解」本身。

理性主义遭遇挫败后，人们开始寻找新出路：既然规则太难制定，干脆不要规则了。

上世纪 80 年代，IBM 的研究员们想出一个大胆又粗暴的办法：

他们不再教机器复杂规则，而是让机器记住语言的使用频率和上下文。一个词经常跟哪些词一起出现、在什么情况下使用，只要统计足够数据，机器就能像做概率题一样猜出下一句话。这种方法意外成功了。

IBM 的研究员杰利尼克甚至戏谑地说：「每解雇一名语言学家，我们的机器就更准确一点。」

这条路叫做经验主义。它来自哲学传统，强调知识来自实际经验而非抽象理论。经验主义的语言研究者认为：语言并没有隐藏的绝对规则，只是一种频繁使用的习惯和模式。

乔姆斯基讽刺这种做法「就像学会骑自行车却不懂物理规律」。经验主义者反驳得更犀利：「如果你们的规则始终无法有效解释真实语言，那所谓的理解究竟有什么用？」

从语音识别到机器翻译，经验主义一路攻城略地，迅速成为主流。靠简单的概率模型和大规模语料，机器第一次变得「可用」起来。不过要让它真正「学会」语言，经验主义还需要一次更深的飞跃。

1986 年，深度学习奠基人杰弗里·辛顿与同事提出反向传播算法，模拟人脑神经元连接，让模型在数据中自行学习语言使用的统计模式。尽管当时效果有限，但它为后来的深度学习和大模型打下了方法论的基础。

也许最好的理解，就是根本不去理解。

不过，不讲规则，不代表不讲结构。语言的表达仍然需要某种清晰的表示方式。于是，依存文法重新被重视。

它不像乔姆斯基那样层层拆解句子，而是直接建立词与词之间的依赖关系。比如「这个孩子很难过」中，「难过」是中心词，「孩子」和「很」分别依赖于它，简单明了，正契合数据驱动的建模思路。

这种强调「词与词关系」的思维，也正是注意力机制（Attention Mechanism）的前身。

2017 年，谷歌提出 Transformer 模型，用注意力机制替代了传统的局部建模方式。 模型不再只看附近几个词，而是让每个词「看见」整句话甚至整段话的所有词，从中判断谁更重要、谁更相关。

它不依赖语言规则，也不预设语言结构，而是通过训练自然学出模式。这种「不讲规则，只讲关系」的方式，彻底颠覆了乔姆斯基早年提出的「上下文无关」理论。

至此，经验主义暂时终结回合。它证明了：理解语言，或许根本不需要理解，只要能复现它的使用关系就够了。

经验主义的胜利，值得认可，也不得不认可。它教会我们，语言模型的成功未必依赖「完美的理解」。

但如果我们想走得更远，取得真正意义上的突破，可能需要再次直面语言本身。

这并非出于某种怀旧或理想主义的浪漫，而是因为语言的标杆与参照，从来都是我们自己。