Matrix 首页推荐
Matrix 是少数派的写作社区,我们主张分享真实的产品体验,有实用价值的经验与思考。我们会不定期挑选 Matrix 最优质的文章,展示来自用户的最真实的体验和观点。
文章代表作者个人观点,少数派仅对标题和排版略作修改。
随着 Claude Opus 4.7 和 4.8 的推出,「新模型不如 4.6」的声音不绝于耳,某程度上也算是复刻了一回 GPT-5 发布时的窘况。由于平时不常使用大语言模型协助非功能性的写作任务,除了不得不品尝的「You are absolutely right!」以及上次征文之外,我对于其语言能力的状态并没有太多实感。
于是我想尝试用数据来回答这个问题:近来大语言模型的语言能力,是不是并没有随着基础模型的迭代而提升?
Arena AI 对我而言是最好的数据源。主流基础模型每次更新版本前后,你基本上都能在 Arena AI 上找到新的 API 以及它们的得分排名,我暂时还不知道有哪个 benchmark 对基础模型的覆盖度能比得上 Arena AI。
除了方便,它也是相对难作弊的 benchmark,因为它的分数基于如下方式得出:用户在 Arena AI 上输入一个 prompt,这个 prompt 被传入两个不同的模型或 API,用户将看到两个回复并从中选择一个 ta 觉得更好的,这个选择被记录在后台;团队基于成千上万用户在众多不同组合的回复中作出的选择,通过特定统计方法计算出每个基础模型的得分和排名。
理论上来说,Arena AI 的得分/排名是最接近用户体验的。但 Arena AI 这种 benchmark 方式只是相对难作弊,不是完全不能作弊。在可能全部 benchmark 实际上都难以代表用户体验的当下,我能做的就是找一个作弊难度更高的。
语言能力受冷,编程能力狂飙
如果用 Text Arena 得分作为语言能力的指标,Code Arena 得分作为编程能力的指标,答案显而易见:比起语言能力,厂商更愿意投入资源提升基础模型的编程能力。
以每半年为界,统计最近两个半年发布的基础模型它们在 Arena AI 上的得分然后进行对比,即使在差距较小的场景下,编程能力提升的幅度也接近语言能力的两倍。虽然我可以明确告诉各位,那 1.82% 的语言能力分数提升不纯粹来源于误差,但这种程度的提升能对实际体验带来多少改善,相信大家心中有数。
或许我应该庆幸,至少在跑分上基础模型的语言能力还不至于倒退,名义上依然在提升。
如果把模型发布日期改为按日分布进行分析,基础模型语言能力和编程能力的变化趋势和此前的推论类似。编程分的橙线更陡,语言分的蓝线相对平缓,可以认为在过去将近一年的同一段时间内,编程分涨得更多,语言分只是略涨。虽然语言分的蓝线看起来几乎没什么变化,但它确实在缓慢上升,趋势上并没有开倒车。
厂商把资源投入的重心从基础模型的语言能力转向编程能力,主要动力源于编程是短期内变现潜力、投资回报相对明确的场景。除了高昂的费用,基本上没有什么其他东西能阻止工程师使用大模型编程。以向用户提供低价 API 为卖点、向大模型厂商卖语料为主要盈利模式的中转站层出不穷,足以说明大模型在编程场景有明确的 C 端乃至 SMB 需求。
至于 B 端,老黄让大模型厂商害怕自己没囤够卡,大模型厂商也得让自己的 B 端客户害怕点什么才能回血。于是包括北美百度 Meta 在内众多经历过 SaaS 降本增效市场教育的企业,近年也在经历「AI 降本增效」的新一轮市场教育,纷纷在内部建立起 token 消耗天梯榜。这种正常人稍微动点脑子就知道不正常的行为,还是在各位大老板不容置疑的高瞻远瞩下,在不小的范围内获得了推广。大模型厂商深知不能只笑着数钱,也得有所表示,自然就把基础模型的训练资源向编程能力倾斜,产品化资源也同步跟上。
于是我们看到了大模型语言能力发展缓慢,编程能力「突飞猛进」的一年。
这种趋势会持续多久,如果我能判断的话就不会在这写文章了。虽然已经开始出现 4 个月把全年「AI 预算」花光这类新闻,但「AI 降本增效」这把火是否会就此降温还不得而知。毕竟御三家未上市的两家似乎都打算今年 IPO,到时候既需要诗和远方的 AGI,也需要真金白银的 ROI,半年内再造出 vibe coding 这种级别的概念,目前看有难度。
编程之外其他场景的 Agent 能力也可以讲故事,但这个故事还太复杂,不够简单;这么看来,还得是编程。
时间会给出答案。过完接下来的半年,Arena AI 上会有更多的数据,招股说明书(国内有近年上市的,也有即将上市的)会让我们看到更多大模型厂商想讲什么故事。大语言模型是不是会彻底变成大编程模型,届时将会有更清晰的答案。
只不过和内存、硬盘的价格预期类似,我对于基础模型语言能力的改善不抱什么希望。作一个可能不恰当的比喻,如果说 GPT-2、GPT-3 到 GPT-3.5 它们在语言能力方面的进展是百分制下的 30 分、55 分、60 分,那么 2026 年 6 月的当下,基础模型在这方面的得分对我而言可能是 70 分。然而 60 分到 70 分、乃至未来 70 分到 80 分的变化,又怎么能比得上 55 分到 60 分这一步?
一点碎碎念
这篇文章也是讲一个故事,为了讲成这个故事,我选择了对比 Text Arena 和 Code Arena,而不是把 Text Arena 里的 Overall、Creative Writing、Coding、Occupational - Software & IT Services, Occupational - Writing/Literature & Language 都拉出来对比,因为这些指标的变化趋势差别不大,这样的话这个故事就讲不成,没办法搞个大新闻了。
如果使用平均数而非中位数,Text Arena 和 Code Arena 分数变化程度的差距会更大(1.79% vs. 5.77%,基于 Arena 票数加权),但 Arena 分数很明显不是正态分布,虽然我不说可能没什么人知道,但我又想在搞个大新闻的同时搞得更严谨,不出偏差,于是最后还是选择呈现中位数对比的结果,同时展示加权、不加权票数两种做法,毕竟不加权的时候差距还是挺大的。
虽然 Text Arena 里包含了非常多的基础模型,但 Code Arena 包含的基础模型少得多,为了对比更为合理,我选择只纳入同时出现在 Text Arena 及 Code Arena 的基础模型进行分析,它们是:Claude、Deepseek、Gemini、Gemma、GLM、GPT、Grok、Kimi、Mimo、Minimax、Qwen。
为什么使用基础模型发布时间而非版本号来呈现模型能力的变化,一来不同厂商版本号并不一一对应,例如 GPT-3.5 是 GPT 这个基础模型最早被 C 端认知、出现在 Arena AI 的版本号,而 Gemini 3.5 (flash) 才刚发布不久,重新校正很麻烦也没有必要。二来现在基础模型的版本号越来越像浏览器的版本号,版本号增长得是越来越快,用户可感知的体验变化却越来越小,版本号越发难以反映能力变化。

> 关注 少数派公众号,解锁全新阅读体验 📰
> 实用、好用的 正版软件,少数派为你呈现 🚀

