大语言模型正在变成大编程模型

Matrix 首页推荐

Matrix 是少数派的写作社区，我们主张分享真实的产品体验，有实用价值的经验与思考。我们会不定期挑选 Matrix 最优质的文章，展示来自用户的最真实的体验和观点。

文章代表作者个人观点，少数派仅对标题和排版略作修改。

随着 Claude Opus 4.7 和 4.8 的推出，「新模型不如 4.6」的声音不绝于耳，某程度上也算是复刻了一回 GPT-5 发布时的窘况。由于平时不常使用大语言模型协助非功能性的写作任务，除了不得不品尝的「You are absolutely right!」以及上次征文之外，我对于其语言能力的状态并没有太多实感。

于是我想尝试用数据来回答这个问题：近来大语言模型的语言能力，是不是并没有随着基础模型的迭代而提升？

Arena AI 对我而言是最好的数据源。主流基础模型每次更新版本前后，你基本上都能在 Arena AI 上找到新的 API 以及它们的得分排名，我暂时还不知道有哪个 benchmark 对基础模型的覆盖度能比得上 Arena AI。

除了方便，它也是相对难作弊的 benchmark，因为它的分数基于如下方式得出：用户在 Arena AI 上输入一个 prompt，这个 prompt 被传入两个不同的模型或 API，用户将看到两个回复并从中选择一个 ta 觉得更好的，这个选择被记录在后台；团队基于成千上万用户在众多不同组合的回复中作出的选择，通过特定统计方法计算出每个基础模型的得分和排名。

理论上来说，Arena AI 的得分/排名是最接近用户体验的。但 Arena AI 这种 benchmark 方式只是相对难作弊，不是完全不能作弊。在可能全部 benchmark 实际上都难以代表用户体验的当下，我能做的就是找一个作弊难度更高的。

语言能力受冷，编程能力狂飙

如果用 Text Arena 得分作为语言能力的指标，Code Arena 得分作为编程能力的指标，答案显而易见：比起语言能力，厂商更愿意投入资源提升基础模型的编程能力。

以每半年为界，统计最近两个半年发布的基础模型它们在 Arena AI 上的得分然后进行对比，即使在差距较小的场景下，编程能力提升的幅度也接近语言能力的两倍。虽然我可以明确告诉各位，那 1.82% 的语言能力分数提升不纯粹来源于误差，但这种程度的提升能对实际体验带来多少改善，相信大家心中有数。

或许我应该庆幸，至少在跑分上基础模型的语言能力还不至于倒退，名义上依然在提升。

如果把模型发布日期改为按日分布进行分析，基础模型语言能力和编程能力的变化趋势和此前的推论类似。编程分的橙线更陡，语言分的蓝线相对平缓，可以认为在过去将近一年的同一段时间内，编程分涨得更多，语言分只是略涨。虽然语言分的蓝线看起来几乎没什么变化，但它确实在缓慢上升，趋势上并没有开倒车。

厂商把资源投入的重心从基础模型的语言能力转向编程能力，主要动力源于编程是短期内变现潜力、投资回报相对明确的场景。除了高昂的费用，基本上没有什么其他东西能阻止工程师使用大模型编程。以向用户提供低价 API 为卖点、向大模型厂商卖语料为主要盈利模式的中转站层出不穷，足以说明大模型在编程场景有明确的 C 端乃至 SMB 需求。

至于 B 端，老黄让大模型厂商害怕自己没囤够卡，大模型厂商也得让自己的 B 端客户害怕点什么才能回血。于是包括北美百度 Meta 在内众多经历过 SaaS 降本增效市场教育的企业，近年也在经历「AI 降本增效」的新一轮市场教育，纷纷在内部建立起 token 消耗天梯榜。这种正常人稍微动点脑子就知道不正常的行为，还是在各位大老板不容置疑的高瞻远瞩下，在不小的范围内获得了推广。大模型厂商深知不能只笑着数钱，也得有所表示，自然就把基础模型的训练资源向编程能力倾斜，产品化资源也同步跟上。

于是我们看到了大模型语言能力发展缓慢，编程能力「突飞猛进」的一年。

这种趋势会持续多久，如果我能判断的话就不会在这写文章了。虽然已经开始出现 4 个月把全年「AI 预算」花光这类新闻，但「AI 降本增效」这把火是否会就此降温还不得而知。毕竟御三家未上市的两家似乎都打算今年 IPO，到时候既需要诗和远方的 AGI，也需要真金白银的 ROI，半年内再造出 vibe coding 这种级别的概念，目前看有难度。

编程之外其他场景的 Agent 能力也可以讲故事，但这个故事还太复杂，不够简单；这么看来，还得是编程。

时间会给出答案。过完接下来的半年，Arena AI 上会有更多的数据，招股说明书（国内有近年上市的，也有即将上市的）会让我们看到更多大模型厂商想讲什么故事。大语言模型是不是会彻底变成大编程模型，届时将会有更清晰的答案。

只不过和内存、硬盘的价格预期类似，我对于基础模型语言能力的改善不抱什么希望。作一个可能不恰当的比喻，如果说 GPT-2、GPT-3 到 GPT-3.5 它们在语言能力方面的进展是百分制下的 30 分、55 分、60 分，那么 2026 年 6 月的当下，基础模型在这方面的得分对我而言可能是 70 分。然而 60 分到 70 分、乃至未来 70 分到 80 分的变化，又怎么能比得上 55 分到 60 分这一步？

一点碎碎念

这篇文章也是讲一个故事，为了讲成这个故事，我选择了对比 Text Arena 和 Code Arena，而不是把 Text Arena 里的 Overall、Creative Writing、Coding、Occupational - Software & IT Services, Occupational - Writing/Literature & Language 都拉出来对比，因为这些指标的变化趋势差别不大，这样的话这个故事就讲不成，没办法搞个大新闻了。

如果使用平均数而非中位数，Text Arena 和 Code Arena 分数变化程度的差距会更大（1.79% vs. 5.77%，基于 Arena 票数加权），但 Arena 分数很明显不是正态分布，虽然我不说可能没什么人知道，但我又想在搞个大新闻的同时搞得更严谨，不出偏差，于是最后还是选择呈现中位数对比的结果，同时展示加权、不加权票数两种做法，毕竟不加权的时候差距还是挺大的。

虽然 Text Arena 里包含了非常多的基础模型，但 Code Arena 包含的基础模型少得多，为了对比更为合理，我选择只纳入同时出现在 Text Arena 及 Code Arena 的基础模型进行分析，它们是：Claude、Deepseek、Gemini、Gemma、GLM、GPT、Grok、Kimi、Mimo、Minimax、Qwen。

为什么使用基础模型发布时间而非版本号来呈现模型能力的变化，一来不同厂商版本号并不一一对应，例如 GPT-3.5 是 GPT 这个基础模型最早被 C 端认知、出现在 Arena AI 的版本号，而 Gemini 3.5 (flash) 才刚发布不久，重新校正很麻烦也没有必要。二来现在基础模型的版本号越来越像浏览器的版本号，版本号增长得是越来越快，用户可感知的体验变化却越来越小，版本号越发难以反映能力变化。

> 关注少数派公众号，解锁全新阅读体验 📰

> 实用、好用的正版软件，少数派为你呈现 🚀