当文与图的界限开始模糊：聊聊自回归与扩散模型的「串台」趋势

Matrix 首页推荐

Matrix 是少数派的写作社区，我们主张分享真实的产品体验，有实用价值的经验与思考。我们会不定期挑选 Matrix 最优质的文章，展示来自用户的最真实的体验和观点。

文章代表作者个人观点，少数派仅对标题和排版略作修改。

为何文字与图像生成模型分道扬镳？

你是否会有这样的疑问：为什么主流的文字模型用的都是自回归模型，而主流的图片视频生成模型却偏爱扩散模型呢？

最近的一些项目也让这个事情慢慢地变得微妙。比如 Gemini 的自回归模型，由于良好的图片一致性惊艳了整个圈子。

而前段时间扩散大语言模型项目 Mercury 也因为它超快的文本生成速度得到大量关注。

是不同模型间的边界正在被打破吗？自回归模型和扩散模型，到底有什么区别？

核心差异：离散信号与连续信号的本质

问题的核心，其实要追溯到最早开始选择技术路线的时候，为什么用自回归模型生成文字，用扩散模型去生成图片。它的背后，其实隐藏的是文字和图像间最根本的区别，也就是离散信号和连续信号。

文字是一种离散信号，由一系列明确的、有限的符号构成。

比如说，我们的语言中有龟和兔这两个明确的符号概念，但你不可能在龟和兔间找到一个中间状态，我们无法定义一个既是龟又是兔的中间符号。这就是文字的离散性。

图像就是一种连续的信号，它是平滑无限的。比如蓝色和黄色之间，其实可以找出无数个不同的颜色。这些中间状态都是连续存在的，所以它不是有限的离散符号，而是连续的。

更进一步，文字是人发明的，是对这个连续世界的一种抽象，或者说是采样。就像我们看到不同品种的龟，无论是中华草龟还是猪鼻龟，它们都被我们统一成了一个离散概念「龟」，并且用「龟」这个符号表示。

正是文字和图像本质上的差异，决定了早期生成模型不同的技术路线。自回归模型更适合处理离散的文字生成，而扩散模型更适合处理连续的图像生成。

生成机制对比：从人类行为到模型逻辑的仿生学映射

自回归模型：契合人类语言生成的逐字预测机制

人是如何生成文字的？或者说，如何说话的？

说话是一个逐字逐句、循序渐进的过程，我每讲出一个字，其实都是基于前面说的内容得来的。

比如「我现在想喝」，你可能会说我想喝奶茶，我想喝可乐，但是大概率不会说我想喝自行车，我想喝混凝土——语言有一种天然的、基于上下文的推进逻辑。

自回归模型的工作机制其实和说话的过程高度相似。它的本质，就是根据已生成的离散符号，在有限的符号集里判断哪一个符号的概率最大，你也可以把它理解成分类任务。

所以自回归模型和语言生成的内在习惯是相似的，也就非常适用文字生成的任务。

扩散模型：模拟图像绘制的渐进细化与特征概率分布

如果你想画一只长颈鹿，你可能会先从一个简单的草图开始，逐步添加细节，使它逐步靠近你脑海中的长颈鹿形象。我们脑中有一些「长颈鹿」这个概念的典型特征，例如长长的脖子和身上独特的斑纹。当我们绘制长颈鹿时，就会有意识地加入这些特征。

然后，我们从数学的角度去看能找到的长颈鹿图像，像「长长的脖子、身上独特的斑纹」这样的特征组合，在长颈鹿图案里出现的概率也很高。所以长颈鹿这个概念背后，其实都是特征的概率分布的集合。

所以，当我们用扩散模型去生成图片，就是试图让图像中的这些特征，尽可能地向我们想要表达的那个概念对应的高概率区域去靠拢。比如，在连续的这个空间中，我不断地把脖子画长，不断地去增加斑纹的质地，让它看起来像是长颈鹿斑纹，那么最终的图像就会在对特征的强化下，变得真的像长颈鹿。

扩散模型就是在找一种概率分布，是从模糊草图到细节逐渐变清晰的过程，和人们绘画的思维方式是吻合的，所以扩散模型就天然的适合图像生成的任务。

但由于图像信号本身是连续的信号，所以我们截取到的特征自然也是连续的。这种连续的特征导致我们很难明确找出，哪些维度是具体对应长脖子，哪些维度是具体对应独特斑纹，因为这些特征之间其实是没有明确的边界的。

扩散模型生成图的过程算是比较直观的，但是你很难地具体地判断，每一个特征，或者说这多个维度特征的组合，表达的到底是什么含义。

所以，扩散模型在学习这些特征时，其实学到就是整体的、抽象的、无法用语言表述的感觉，就跟人在第一次看到一栋非常宏伟的建筑时，不会具体去分析这个画面里面的哪些细节让它变得宏伟，不会说这个设计语言是什么，而是直观感受到整体的美感。

画面之所以能够有效地传递这种直觉，是因为审美本身就是难以表述、难以界定的。它依靠的就是大量微妙特征的相互融合与作用。这也是为什么扩散模型有时的确能生成一些，让人乍一看觉得惊艳的作品。我把这个叫做扩散模型 AI 的想象力。

所以我们可以看到其实人们在选择模型时，是符合人们自己去使用文字与绘制图像的方式的。这背后有种类似仿生学的概念，人怎么做，我就让模型怎么做。它们虽然有着不同的技术方案，但其实都是解决对应问题的最短路径。

边界的突破：自回归模型处理图像的技术路径

那么，为什么 Gemini 或者 Grok-3 这样的模型，为什么又能完成多模态的任务？

我们去看看开源项目怎么做。

图片是连续的，自回归擅长处理离散的信号。那我们怎么能让自回归模型生成图片呢？我们其实可以加一个模块去做一种转换，我先把图片的这种连续信号转成离散信号，之后再用自回规模型去进行处理。

Deepseek Janus 其实做的就是这样一件事。我们可以看到自回归模型里引入了叫 VQ Tokenizer 的模块，这个 Tokenizer 就实现了连续特征到离散特征的转换。它会构建一个称为 Code book 的离散特征集合，把原本的连续特征映射到一个集合。

举个例子，一张长颈鹿的图片，在经过了 VQ tokenizer 之后，它就会变成：

这个长颈鹿的轮廓是什么样的？
这个长颈鹿的透视关系是什么样的？
这个长颈鹿它的纹理是什么样的？
这个长颈鹿头上面有什么？……

这样就把原本难以直观表达的影像的连续的特征，变成了一种更加明确、更加可控的特征。

那为什么新模型可以处理多模态的任务呢？

首先，既然每一个维度都可以清晰地解释，当我们想明确地把长脖子改成短脖子，我们只需要针对那个特征维度的区域进行精准修改就可以，不需要担心这种修改影响到图中的其他区域。所以这种明确的特征标识为图像的编辑任务提供了很大的便利，而且它能够最大程度上保持图像的一致性。

但它也有相应的劣势，我们引入 VQ Tokenizer 后，就意味着多了一个需要维护的模块。我要保证 Code book 的训练过程和优化足够准确，只有模块不出错，才能生成更高质量的内容。

那除此之外，就是当我把无限的信号映射到有限的离散特征之中，肯定会有信息损失，而且这种损失就尤其体现在复杂的、精细的场景上。我们也说了连续的特征能够更好地表达美学直觉这种艺术性的抽象概念。当这些连续性的信号被强行离散化，就很有可能造成细节或整体美感的下降。

所以自回归模型很有可能在高度复杂的图像生成任务上遇到瓶颈，毕竟有一些美的东西真的没有办法用语言进行精确描述。

最后，自回归模型，现在在图像分辨率上还有一定劣势，不太赶得上现阶段的扩散模型。

小结

综上所述，其实自回归模型和扩散模型有交叉，但它们都有自己的适用领域，并且很有可能联合使用，也就没有必要去讨论谁会取代谁。

相比模型本身，我觉得更重要的是当我们真正理解这个技术背后的原理和它的发展的脉络时，我们才能准确选择最适合自己产品的技术方案，做出属于自己的判断。知其然，更要知其所以然。

> 下载少数派 2.0 客户端、关注少数派公众号，解锁全新阅读体验 📰

> 实用、好用的正版软件，少数派为你呈现 🚀