用数据分析项目，带你走进成语里的数字世界

Matrix 首页推荐

Matrix 是少数派的写作社区，我们主张分享真实的产品体验，有实用价值的经验与思考。我们会不定期挑选 Matrix 最优质的文章，展示来自用户的最真实的体验和观点。

文章代表作者个人观点，少数派仅对标题和排版略作修改。

带数字的成语，你一口气不停说，停顿 5 秒以上就算输，最多能说多少个？

先分享个小技巧：这游戏想要玩得好，优先想带「一」的成语。如果偶然想到带其他数字的成语，发散完没有头绪不要恋战，回到「一」来。而且，优先想「数字字字」和「字字数字」这种格式的词。

这技巧我怎么知道的？因为我对 3 万多个成语做了详细的数据分析，感兴趣请往下看。

数据准备

首先，要分析成语，先得把成语都找出来。稍微了解了下，不同词典收录的成语数量不同，数量范围在 3-5 万个之间。

在 Modelscope 找到一份数据集，包含 3 万多个成语，足以支撑我的研究：https://modelscope.cn/datasets/Lawrenceshi/Idiom-solitaire 这个数据集本身也挺有意思，可能是为研究成语接龙而创建的，它把每个成语首字和尾字拼音都单列出来了。

不过我的研究方向有所不同，我只需要成语本身（word）和释义（explanation）两项足矣。

把成语中的数字词提取出来，单独一列，便于后续分析。

另外，成语中绝大多数都是四字成语，占比达到 95% 以上。我们提到「成语」这一概念时，更多还是指狭义的四字成语。虽然非四字成语也包含数字词，如「三下五除二」「一而再，再而三」，但由于总量较小，排除掉对结果影响不会很大。

后续的研究都仅围绕四字成语展开。

成语中有哪些数字？

不过，提取数字词的过程中，我发现这事情不能深想，这里面水很深。我们得定义一下这个课题本身。我研究的是成语中的「数字词」，还是成语中的「数字」？

这完全是两个概念。前者只需看常规的数字词是否出现，后者要关注成语中是否出现表达数字的含义。由于研究对象本身就是一种文化现象，我认为应该从含义的角度出发 。所以，成语中的数字，要把那些「是数字词但表达含义不是数字」的剔除掉，同时还要把「不是数字词但含义等同于数字」的包括进来。

任务难度提高，我们一步步来。先看「是数字词但表达含义不是数字」这种情况，真的存在吗？

狭义的数字词有「一二三四五六七八九十百千万亿」这些。经过研究发现，它们在成语中无论是实指还是虚指，都没有脱离数的含义。顶多是类似于「三」泛化为「多」这样的用法，但它们的含义是从一个具体的数发展出来的，仍然可以视作数字。

「不是数字词但含义等同于数字」的情况呢？应该马上有人能想到，「二」和「两」经常可以相互替代。没错，「二」确实是个很特殊的数字，它似乎有许多变体：「两」「双」「偶」「再」「复」。

我把其中部分变体也作为数字词，加到筛选条件中。把含有这些变体的成语单独提取出来，合并到一个专门的文件中，结合成语释义，交给 AI 判断它在里面表达的是不是数字的含义。结果如下：

「两」字除了表达计量单位的意思，其余都是数字词。
「双」全是数字词。
「偶」只有「无独有偶」是数字词，其他的含义大多和「机会」有关。

为什么「再」「复」不算数字 2 的变体？因为它们加了一层时间含义，第二次，有明确的「先」与「后」的概念，与纯粹的数值不同。其他数字有没有这样的变体？完全等同的精确指代没有。「众」「群」等模糊指代有的，但这些不是确切的数，我认为不能算进来。

我不放心 AI，又人工筛选了一遍，发现 Gemini 2.5 Pro 其实准确率非常高。人工筛选的和它筛选的结果对比，AI 只有 3 处遗漏，而且还发现了我的一处判断错误。

我尝试思考，为什么只有「二」有这么多变体，其他数字却没有？

一番查证，发现「二」在中华文化里真的很特殊。我们是一个高度崇尚二元论的文明，古代哲学中处处可见阴阳、乾坤、虚实等对立统一的世界观，导致数字 2 在文化上有大量衍生和泛化。比如「两」这个字，是符合二元论哲学的典型，它最初的意思是「天然成对的事物」，从字形上也能看出来，与「二」纯粹指代序数有所不同。想一想，只能用「两」不能用「二」的场合，是不是有许多事物都是成对的、或者对称的？另外，大写数字「贰」的来历，里面加入的这个「贝」字，也是在借用贝壳两半成对的含义。

展开分析

言归正传，既然我们把「带有数字含义」的四字成语都成功筛选出来，研究可以正式开始了。

带数字成语的比例

在 29502 个四字成语中，有 2431 个带有数字含义，占总量的 8.2%。

成语数字词出现频率

在后续的分析中，我把含义相同的数字词都算到同一个数上，也就是把「两」「双」「偶」的数据都归到「二」里。为表示它是广义的数字「二」，我把它写作「(2)」。

数字词出现频率的规律：

「一」遥遥领先，约是第二名的 3 倍。
两头高中间低。「一二三」「百千万」用得多，普遍为中间数字的 2 倍多。可见古人造词也爱走极端，不夸张不足以抓人眼球。
「亿」几乎没人用。

关于「亿」可以多说几句。我做研究前就认为它在成语中应该极少出现，把它加进来分析是作为「对照组」。因为「亿」是这里面唯一一个万进制数字，其他都是十进制数字。

从十开始，每个数字 10 倍递进。到了万之后，这几乎触及古人日常生活中的数量级天花板，再往上没有造词的必要了。但统治者不同，统治者处理天文数字。只是他同样不能再往上造词了，因为上面数量级太多，造多了根本记不住。采用「民间」最高数量级万来递进，中间的用复合单位来表示，十万、百万、千万、万万 = 亿…… 这样一个体系，既不增加新概念，又能很好表达各数量级的大数。

我在这篇文章里详细解释了这个观点：为什么英语中没有万这个单位？

成语数字词的数量

四字成语中，数字词占了其中几个字？

1 个数字词的成语占 64.1%，2 个占 35%，这两者加起来就 99.1% 了，3 个和 4 个的极少。3 个的如「三六九等」，4 个的如「一五一十」。看到这里不得不说，成语真是文化的高度浓缩，可以说是意义的多层包浆 。想象一个不懂中文的歪果仁看盯着「一五一十」这个词：

One, five, one, ten？是说一个东西是另一个两倍那么厉害吗？

成语数字词组合

有两个及以上数字词出现时，它们是如何相互组合的？哪些数经常一起使用？我先讲讲怎么看这图，它是一个条件概率热力图，先选一行横着看，再看其中某一列。

比如第「三」行第「四」列表示，所有含「三」的（2 个数字词）成语中，也含有「四」的占了 26%。反过来，第「四」行第「三」列表示，所有含「四」的成语中，也含有「三」的占了 59%。

严谨地解释一遍。这个图里每个格子的概率来自两个数相除，分母是包含行数字的成语数量，分子是同时包含行数字和列数字的成语数量，约束条件是所有带有 2 个及以上数字词的成语。这张图上能看出的东西就非常丰富了：

「一」雨露均沾，对其他数字没有明显偏好。
「二三四五六」倾向于和相邻或相近的数组合，对「三」尤其依赖。如「两面三刀」「三从四德」「三令五申」「五脏六腑」。
「七八」是好基友，基本只认彼此。如「七上八下」。
「九十」组合也非常常见，两个大数表示多。如「十拿九稳」。
较大的偶数有「减半组合」现象，和自身的 1/2 组合，比其它数字明显高一些。如「三头六臂」「四平八稳」「五光十色」。
「九」和「三」也构成了特殊的组合，尤其是「九」依赖「三」，如「三教九流」。这里面莫非有平方的思想？
从「百」开始，大数的组合模式只剩两种：和「一」组合表示反差，如「一落千丈」；和相邻大数组合表示非常多，如「千头万绪」。
竖着看，「一」和「三」是最被需要的数字。这也与出现频率那章结论相符。

成语数字词重复

这里还有个小插曲。由于这分析代码是 AI（Claude 4 Sonnet）写的，对于这种复杂的热力图，我不太信任 AI 的算法，特意验证了一遍。

热力图里的成语，每一个都包含至少 2 个数字词，每一行已经锁定了其中一个数字词，行里的格子是另一个数字词出现的概率。理论上，每一行的概率之和应该接近于 1。但为什么不刚好是 1，有两个因素会使概率之和偏移：

当成语中出现3个甚至更多不同数字词（如「三六九等」），会在多个格子中重复出现，分别独立计算概率，导致概率之和偏高。
当成语中仅有一种数字词但出现多次（如「一心一意」），它不会出现在任何一个格子里（其实它就在没有数字的对角线白格里），却会被算进分母中，导致概率之和偏低。

和 AI 讲了我这个观察，它认同偏高的原因，却不同意偏低的原因。它坚称每行概率之和理论上只会大于等于 1，如果有小于一的情况是数据精度导致的误差。我亲自一算就发现不对劲，第「一」行之和只有 0.74，离 1 也太远了，精度再差也不能差掉 1/4 啊。和 AI 来回拉锯几轮，它顶不住我的追问，决定在代码里写一些验算逻辑。验算完发现我是对的，偏低真是这个原因。

验算也让我发现了两个特殊数字。绝大部分数字概率之和都在 1 附近，上下偏离极小。但「一」的概率之和是 0.74，「百」的概率之和是 0.9，表明这两个数字词确实有大量重复出现的情况。想想确实如此：「一朝一夕」「一草一木」「一唱一和」「百战百胜」「百发百中」「百依百顺」……

成语数字词位置

再看看数字词在四字成语里通常出现在什么位置。

只包含一个数字词的成语，绝大部分数字都出现在第 1 个或第 3 个字。

包含 2 个数字词的成语，数字位置就有 6 种组合：1-2 型（数数字字）、1-3 型（数字数字）、1-4 型（数字字数）、2-3 型（字数数字）、2-4 型（字数字数）、3-4 型（字字数数）。

1-3 型占绝对主导，正是典型的「三番五次」模式。2-4 型少很多，但也远超其他，「横七竖八」模式。3 个及以上数字词的成语就没什么好分析的了，总量才 22 个。另外，只有 1 个数字词的成语还能继续挖掘，看看每个位置上都是些什么数字。

无论几号位，都是「一」最多，1 号位和 3 号位领先优势尤其明显，一骑绝尘。

忽略「一」的领先，其他数字在 1 号位分布相对平均（除了「百」较多），而在 3 号位出现明显的微笑曲线式分布。

「(2)」在 2 号位和 4 号位表现非常突出，相信「双」字在这里作出了巨大贡献。虽然比例可观，但总量其实很少，所以这两个位置的规律未必能说明什么。

关于微笑曲线我有个猜测。只有 1 个数字词的成语，和有 2 个数字词的成语，在语法结构上有明显不同。在这短短 4 个字里，1 个数字的成语，前两字和后两字是有明确分工的，前者更倾向于表达事物本体，而后者更倾向于形容前者，比如「一飞冲天」。而 2 个数字的成语，前两字是一个一件事，后两字是另一件事，靠对仗排比的手法让人明白它的内涵，如「百媚千娇」。

回到 1 个数字的成语。既然前者是本体，考虑到文化和历史的丰富性，各种数字都可能出现，因为有许多约定俗成。如「五雷轰顶」，你不能随随便便换成「一雷」「百雷」。

而后者是形容，所以可以怎么夸张怎么来，中间不大不小的数字用处不大。「雷霆万钧」和「雷霆九钧」哪个更有张力？你一看便知。

虽然也有倒过来的用法，如「不堪一击」。但你仔细品味，有没有觉得倒过来的用法似乎给人一种「倒装句」的感觉？汉语常规语序（包括古文）里是不是更多说「什么东西怎么样」？似乎主体先说出来对信息传递更有利，所以总体而言 1 号位数字更多是本体，3 号位数字更多是形容，导致了这种差别。

成语数字词大小

再看看数字大小在四字成语中有什么规律。既然要比较大小，就至少得有 2 个数字词。由于 3 个和 4 个数字词的成语极少，这里只分析 2 个数字词的成语。

数字增大的情况占多数，减小的情况次之。两数相等其实就是重复使用，这种用法最少。可见数字增大的递进式表达更加自然，信息传递效果更佳。

再细看每种位置组合的大小情况，也就是：1-2 型（数数字字）、1-3 型（数字数字）、1-4 型（数字字数）、2-3 型（字数数字）、2-4 型（字数字数）、3-4 型（字字数数）。

由于 1-3 型和 2-4 型占了绝大多数，我们重点看图 2 和图 5：

1-3 型的大小关系和整体情况接近。如「一石二鸟」「双宿双飞」「万紫千红」。
2-4 型更极端，明显由数字增大的情况主导。如「隔三差五」，另两种模式我竟然一个也想不到。

其他类型数量太少，图表没什么意义。

成语数字词奇偶

奇数与偶数在汉语中也有显著区别。奇数为阳，偶数为阴。来看看（十以内）奇偶数在成语中的情况。

由于「一」傲视群雄的使用频率，仅含奇数的成语占到一半以上。仅含十以上大数的次之，奇偶数都有再次，最少的是仅含偶数的成语。看来阴数确实在文化上就矮一头，不受待见。

单独分析仅含 1 个数字词的成语，无论在几号位上，奇数都力压偶数，1 号、3 号位尤其明显。到含 2 个数字词的成语里，情况就有变化了。这里我们只分析 1-3 型和 2-4 型成语，因为其他类型总数太少了。

1-3 型的 1 号位奇数占绝大多数，但 3 号位两者持平。当头先来一个阳数，后面可阳可阴，「一波三折」、「七上八下」。

2-4 型的 2 号位也是奇数占绝大多数，但 4 号位完全反转。阳数还是得在前，阴数结尾，「丢三落四」、「横七竖八」。但这背后有什么文化原因，我还没想明白。

可见，无论从哪个角度，成语中的文化可以只用阳数，也欢迎阴阳调和，但基本拒绝只用阴数。

结语

数据分析这个技能很有意思。我学了它这一年多以来，没做过什么正经事，完全当玩具在用了。用来满足我的各种突发奇想，比如我之前还研究过英语单词重音的分布规律。整一套分析下来，没有任何对生活有直接帮助的结论，纯粹图一乐呵。

不过，我更想知道语言学者和语文老师此刻感想，或许能联想到什么关键因素，从中挖掘出更多数据背后的文化和历史。如果你有新的发现，欢迎和我分享。

最后，开头的游戏你玩了吗？最高记录可以连续说多少个？

> 关注少数派小红书，感受精彩数字生活 🍃

> 实用、好用的正版软件，少数派为你呈现 🚀