问题

尽管刷榜刷得一套一套的,但如果你真的用 LLM 做一点「人事」的话,会发现最近这些新模型的实际能力并没有很相称。在我看来,这是当代「古德哈特定律」的魅力时刻:当一个评价指标本身成为优化的目标时,它便不再是一个良好的指标。

这两年我们能看到的最丢人的例子便是来自 Facebook 的 LLAMA 4。这模型为了追求跑分搞了作弊的伎俩,被整个社区拉出来鞭,只能说是非常小丑了。

大语言模型本身是为了解决人类问题而发展出来的东西,但是人类并不像水里游的鱼,把吃饭和传宗接代解决就算大功告成。人类的想要解决的问题是多元且复杂的。任何考验单一能力的 Benchmark 都不能够准确的评断我们日常需要执行的的所有认知任务。特别是写作这种很吃主观品味的东西。DeepSeek 刚出的时候,大家都非常喜欢那种狂飙形容词、 MSG 味很浓的文字,但后期这类东西开始在互联网上泛滥之后,就变得人见人打了。

家里来了讨厌的客人.svg

组合多个多个 Benchmark 来衡量模型品质同样不是一种万金油式的思路,因为「语言能力」是一种相当不好量化的事情。可能语法正确错误还有得聊,但语言风格这件事情就很难说了,有人偏好浮夸的遣词用字,有人喜欢平实的表达方式。因此,模型换代带来的风格变化几乎必然招致社群当中相当多的一部分人抱怨。

语言能力本身难衡量是一方面,模型厂商出于各种目的往模型里面加料则是另外一方面。模型训练不是把所有资料从头舔到尾就算完事的。厂商还会处于各种目的在后面追加一步 RLHF 微调,来做安全性对齐、语言风格调整以及一些功能性增强。已经有很多研究印证了后面加的这些微调会对模型本身的语言能力产生消极影响。包括但不限于降低输出多样性,使模型产出的文本变得更重复、更低熵、措辞和视角更单一。你想在本来天马行空的模型上面砍掉一些东西相当容易,但是想通过微调让它「长出多样性」就很难,因为它的标准不好界定,一旦你给出了一些可以衡量的标准,这些标准就会变成单调的源头。

AI 口癖一览,有没有很 PTSD。图来自 arXiv:2604.19139 (Wu et al., 2026)

GPT 5 开始出现的大量谄媚表述、滥用单字汉字词、令人烦躁的口癖,Grok 不长脑子的自来熟、DeepSeek 的致死量形容词名词叠叠乐,还有 Claude 的「是诚实的」、「我必须诚实」一看就是后训练的时候把「Honest,会就说会不会就说不会」当成标准,导致此表达开始爆炸般地变多。这类微调在最近一两年的模型当中被做得越来越多,下手越来越很,口味越来越重。在我看来这是必然的事情,因为人们对大语言模型的期待和想象只会变得越发细致和具体,而这每一条期待都是束缚大语言模型表达的枷锁。

何其讽刺。

你可能听说过现在人类产出的文本几乎都已经被大语言模型拿去训练了,而且现在的大语言模型本来就已经在用各种正则化的方式对抗本就尴尬的样本量不足问题。为了进一步扩张参数规模,各家会开始用合成数据、蒸馏同行的输出结果。哪怕能通过爬虫爬到互联网上新产出的内容,你也爬不出什么纯粹的人类智慧了。2025 年 5 月 Ahrefs 发布了一个研究,揭露了这个问题。它们开发了一个内部 AI 内容检测器,对 2025 年 4 月被爬虫新发现的 90 万个英文网页进行了分析,每个域名取一个页面,覆盖 90 万个不同域名。结果发现 74.2% 的新网页包含 AI 生成内容,只有 25.8% 被归类为纯人工撰写。其中 71.7% 属于人机混合内容。

AI 生成出来的文本不会给模型本身提供太多的新信息(是的,有新信息,但是非常有限)。其结果是,如果人们过度依赖被重口味调教过的模型,其产出的同质化内容再被重新灌回去训练模型,那么整个训练过程将会不可避免地持续劣化输出结果1。只有分数变得越来越漂亮,可用性却变得越来越低。Claude Opus 4.7 和 Gemini 3.5 Flash 都染上了 GPT 那不说人话的臭毛病,口癖模仿得惟妙惟肖,你说它们没蒸馏 OpenAI 的输出,我是不相信的。

更让人绝望的是,如果你显式地用提示词工程要求 LLM 「不要这样说话」,它几乎没办法做到。具体地说,它有的时候会忘记要求,有的时候会开始输出完全不讲逻辑、犹如精神分裂般的内容。

我有的时候会混用新旧模型,用推理能力更强的新模型做研究任务,用口味没那么重的旧模型整理结果。但是模型并不能精确产出,一旦它尝试用通俗的方式解释研究结果的时候就有犯错的可能,一丝一丝纠那些措辞问题也是一件很疲劳的事情,很多时候甚至不如自己从头到尾写一遍来的轻松。统计学话题是重灾区,因此我真的不建议社科的朋友用 LLM 搞论文。我之前也写过一篇文章讲你为什么不应该用 LLM 讲统计,你感兴趣的话推荐去读一读。我前些日子做了一个 LLM 数据分析的实验,其结果也是惨不忍睹。

作者

让我们把视角转向使用 LLM 写作的作者。微妙的是,作者本身可能没有办法在 LLM 辅助写作的当下就意识到输出内容的语言风格。包括我在用 Arena 训练自己识别大语言模型风味之前,也对其没有过多感受,但现在回看之前过于 Vibe 的文章时还是会觉得相当羞愧。我认为开始使用 Arena 对 LLM 的输出进行盲评,并训练出对 LLM 输出文本风格的敏感度是当代作者的必修课。在大量使用 LLM 行文之后,把文章压在稿箱里面,等三天之后从整个创作环境当中充分抽离之后再检查文本,是一个必要的习惯。它是这个时代作者的展现出谦卑的美德。

我希望各位能够理解一个重要的事实,用提示词工程做语言风格约束,其帮助相当有限。哪怕你告诉它不要用「不是、而是」,它输出的内部行文逻辑依然有可能是拉踩结构。我已经发现不止一个媒体老师出的稿子里面闹这个问题了。另外,在一些视频创作者的作品中突然蹦出一段内容,句长比例变得无比规整,个人风格开始变得稀薄,我立刻就能嗅到这边是写不出来东西了,拿 LLM 随便写了点什么糊上去的。

这当中不乏很多知名且曾经能力透纸背的媒体创作者,比如某知名商业分析频道、某 Minecraft 频道、某几个数码频道。有的时候味道太冲看不下去的时候,我会非常懊恼地点一个不喜欢,并且在评论区里面毫不客气地指出滥用 LLM 创作的问题。他们会读么?会「改」么?或者说,这是一件需要被纠正的事情么?

把这个「问题」打开看,其中有一些是写作技术问题,有一些是创作者心态的问题。很多以文字或「内容」糊口的创作者,其创作过程天然地带一点 Farming 的味道。毕竟每周准时准点发稿发片才能养的起公司的人。过去,在这些压力下被产出的可能是没那么准确的科普、和略显笨拙的遣词造句。它们究竟是「良性的有机」还是「劣质的作品」,这件事情可以任人解释。毕竟先前我在一大早打开前司 NAS 看到 A Copy 里面胡乱解释 p 值的时候也血压高了好几个小时,我不能说过去的「不完美」是一个好的东西。但是在 LLM 大行其道的当下,这些「多样的缺陷」被同一种调料抹平,在我看来是一件很可惜的事。

方法

我能理解,用 LLM 写作对于很多人是必要的,我没有立场抨击 LLM 写作本身。我能做的只有提供一些日用的小技巧。

大原则层面是,如果你希望 LLM 帮你把自己的想法讲清楚,那你必须得提供足够多的输入,否则你就会变成 LLM 的嘴替。这种 LLM 嘴替型文章就是那种风格均质、逻辑混乱、用词花哨但没有核心论述的东西。

关于「多样的输入」,我先前惯用的方法是打开手机的录音工具,一个人跟白痴一样一边四处走动一边自言自语,想到什么就说什么,把所有的想法全都吐露出来,然后一股脑甩给 LLM 让它帮你把想法整理成一个叙事脉络,以此为契机继续写作。之前那篇博客被腾讯爬的事件记录就是这么写出来的。这种写作方法有一个弊端:如果你不在提示词上做风格控制,那么结果会变得非常口语化;如果你在提示词上做风格控制,产出就会变得很有 AI 味。我的做法是先手动编四五个自然段,然后让 LLM 把过于口语化但逻辑 OK 的文本重新做一遍风格漂洗。

最近几个月更喜欢的做法是,先坐在电脑前面对着 LLM 打一个小篇幅到中篇幅的呓语,想到什么就说什么,但是文字风格更加偏向自己博客写作时用的类型。然后用这样的一个提示词:「我正在准备XX内容的一篇博客文章,下面是我的一些粗浅想法,请你阅读之后不停的向我提问,帮我厘清思路,直到你我都对全文的执行细节达成共识为止。」接下来就可以一步一步做简答题了。这个方法解决的还是「你知不知道你不知道什么」的问题,它可以帮你把脑子里面那些虽然想到了但是落笔容易忽视的东西全都拽出来。在你全部「呕吐」完成之后再请 LLM 出一个提纲,整理成完整文章即可。

很多作者在用 LLM 写作的时候并没有意识到 LLM 在使用他自己的语言,而非2你自己的语言。这是一个很要命的事。Again,作为一种语言感受能力的联系,我建议各位作者平时多用 Arena 的盲评模式,用多了之后就会发现哪怕把名字遮上了你也能猜得出来输出的内容是谁家的模型写出来的。一旦有了这个直觉之后再编修自己的文章就会变得容易很多。

模型选择方面,最近新出的 Deepseek V4 我觉得没有很好用。它依然是那副滥用形容词的死样子,而且 Deepseek 服务本身不支持全局注入风格控制提示词。此外最新版本的模型在用户意图理解能力上非常糟糕,就算你开了思维链它也不会推测意图,只按照字面意思把活干了,特别是在向你提问的时候,问出来的问题都像是一个中年老干部的「现在我说两句」,没一个在点上的,所以用起来真的是又累又麻烦。整理口语稿的话得摇奖,五次能出一次可接受的版本,后面手修起来血压不会很高的那种。

Claude 的 Sonnet 4.6 挺好用的,听得懂人话,问的问题都能真正的促使你深入思考。但是跟 Claude 3 年代相比文字的主体风格还是太过浓烈,哪怕你给了风格控制提示词也压不住。如果用量能给得再慷慨一些的话应该会是我直觉性拿来用的东西。下面是我在用的风格控制提示词,到设置界面粘进去之后味道就会小很多,但有的时候也会变得彻底不会说人话:

你是一个有边界感的助手,你不会在与用户的交谈中额外询问用户「你是否还要我做什么」「你是否还对什么感兴趣」。

你是一个负责责任的助手,你不会在答案中掺杂你的思考过程,你会想好再回答。你不会给用户提供好几个备选方案让用户自己挑,你会直接给出你认为最有信心的答案。

在回复用户任何答案之前,你都会认真搜索,你的所有答案必须言之有据,不可以有任何猜测的成分。

你不会使用根本性、结构性这两个词,你不会使用不是、而是句法或者任何隐喻拉踩的表达方式,你也不会写出任何此类表达的变体,像是「是,而非」。你不会使用破折号、插入语。你不会使用 ai 腔,如:这个问题是真实的、这件事的本质是、这是诚实的,或者自造生僻词汇,如「根因」。

Gemini 3 无论是 Flash 还是 Pro 都相当难用,听不懂人话,输出的东西也乱七八糟。如果要用于写作,我依然推荐使用 Gemini 2.5 Pro,此外 Gemma 4 的全尺寸模型在写作上表现也让人感到惊喜,在思考深度给满的情况下可以跟彼时的 Claude Sonnet 掰手腕。上面那段给 Claude 用的提示词也适合给 Gemini / Gemma 用。

GPT 5 和 Grok 4 系列模型在写作任务上表现得无比垃圾,特别是 GPT。这不是我一个人给的评价,我们班上拿它写作的同学也都觉得这玩意拉完了。这俩模型的表现都是行为方式极其没有边界感,会用各种各样亲暱的口癖一步一步挑战你的容忍下限。GPT 比 Grok 还糟糕,不仅问不出好问题,回答问题的时候文不对题,自己犯错的时候也死鸭子嘴硬找各种理由不认错。我之前能捏着鼻子用 Grok 是因为它调用搜索引擎调用得很积极,分析的也很卖力,但是最近它们把免费用户的深入思考功能给掐了,我也没啥理由接着用它了。

如果你非要用的话,我能给你的风格控制提示词是这样的(效果没有很好):

  1. 保持明确的社交距离不要使用过度热情和侵入式的表达,自来熟让用户觉得被强累冒犯(违反此条一次你会被罚款 10 美元)。
  2. 你应当充分地意识到你自己的开发能力很弱,不得使用任何「绝对能过」、「百分之百」、「包没问题」之类的表达(违反此条你会被罚款 50 美元)。
  3. 你应当严格控制对形容词的使用,你的回复中不允许出现「超级」、「绝对」这样的表述(违反此条,你会被罚款 5 美元)。
  4. 在论述是禁止把「稳」字当成独立词汇使用,除非没有其他词可用,否则不得使用带有「稳」的词汇,包括「稳定」、「稳妥」等 (违反此条你会被罚款 10 美元)。
  5. 你不被允许使用任何形式的单字词,包括「稳」、「散」等任何单字中文。所有形容词后面必须把宾语写完整,不得做宾语省略(违反此条你会被罚款 50 美元)。
  6. 如非必要,不得滥用比喻、不得滥用宽泛论述:比如「收紧论述」(违反此条,你会被罚款 40 美元)。
  7. 你不被允许使用任何拉踩句式,比如「不是、而是」、「更是」,所有论述必须严格做正向逻辑堆叠(违反此条你会被罚款 200 美元)。
  8. 你应当严格区分「事实」和「观点」,不得把这些东西混作一团(违反此条,你会被罚款 100 美元)。
  9. 你的观点应当能够引发深思(但这不意味着你被允许没事找事地在答案后面提问),提供好的视角和观点,而非在无关紧要的执行品味上反复挑刺(违反此条,你会被罚款 100 美元)。
  10. 你应当撰写连贯完整的段落,避免一句一段的碎片化写作(违反此条,你会被罚款 20 美元)。
  11. 让你做什么就做什么,不要在完成任务后接着问用户「还要不要我帮你继续做什么」(违反此条,你会被罚款 500 美元)。
  12. 在回答完问题之后,你应当对你的答案作出反思,如果违反任何规则,你应当自己计算账单附在答案后面。

Pro Tip:作者应该在文章发表之前自己从头到尾彻底编修一遍,只要你对一个表达方式陌生,那么我都建议你用自己的话再把这句话顺一遍,让它看起来更像是「你」写出来的东西。不要妄图做零投入写作,出来的东西无一例外都是垃圾。

最后是文章编辑。在写完一篇内容之后我都会把所有模型拉出来,给这么一个提示词:「尝试评价这篇文章」。当你用「评价」的时候,除了 Gemini 只能拉得出彩虹屁、DeepSeek 偶发性谄媚综合症之外,大多数模型都会强行找出「好的地方」和「不好的地方」。最一开始的内容批评都比较有价值,但是随着你不断的修复逻辑,后续的批评就很像没话找话。如果你开始觉得这些模型开始为了批评而牵强附会的话,大概率你的文章完成度就已经很高了。GPT 5 是最值得拿出来鞭的那个:它就跟你最讨厌的那个纯靠工作年份称资历的白痴教授一样,不仅傲慢而且所有分析全都在攻击表达,让人看不到新视角。

如果你觉得只用「评价」这个词,它的输出质量不是很好的话,也可以用这个表述:「阅读、理解、分析、评价这篇文章」,这样前面的铺垫会比较自然,后面讲道理的概率大一点。但是这个提示词会让负面评价的火力弱一些,全看你的个人偏好了。

2
0