我把“AI 训练师”当成一门手艺：从一句废话需求开始

我第一次听到业务同学说“让模型更懂用户一点”的时候，脑子里其实是空的。不是我不懂模型，而是这句话太像一种愿望——像“希望天气好一点”“希望项目顺一点”。你没法拿着愿望去干活，但你得把它变成今天能做的三件事、明天能验收的两条标准、下周能交付的一个结果。那一刻我才意识到，AI 训练师更像一个把“模糊”加工成“可执行”的人：不是魔法师，是手艺人。

我后来给自己定了个土办法：任何需求只要一出现“更”“更好”“更智能”“更像人”这种词，我就自动进入“追问模式”。不是为了刁难，而是为了救项目。你可以把它想象成把一团棉花揉成一块砖：第一步总要找边界。What 到底做什么？是分类、打分，还是改写？输出长什么样？Why 为什么做？是降低投诉还是提升转化？When 什么时候要？是要先出个试验版还是直接上量？Who 谁拍板？谁负责提供数据？谁负责验收？How 数据怎么进来，怎么出去？How much 数据量、准确率、预算、周期——这些问题问完，需求才从“愿望”变成“工程”。

很多新人（包括我自己）一开始会怕问太多，担心显得不专业。后来我发现，真正不专业的反而是“没问清楚就开干”。因为规则一旦写歪，下游标注会更痛苦，返工会更贵，模型训练的时间也会被浪费。你写的每一句规则，最后都会变成一笔成本：要么省钱，要么烧钱。

规则文档这件事也很像写说明书。说明书最怕的不是“短”，而是“含糊”。我现在写规则会刻意把自己当成第一次接触任务的人：我能不能一眼看懂我要标什么？我会不会把两个概念混在一起？边界情况放哪儿？我最常见的做法是把“定义”写得克制，把“例子”写得奢侈——正例、反例、边界例都要有，而且要选那种真实会让人犹豫的句子。因为标注员不是在做选择题，他们是在做判断题；判断题最要命的，是你没告诉他“犹豫的时候该怎么做”。

项目推进到中段，最容易出现的一个幻觉是：大家都在产出，于是你以为一切都在变好。实际上，质量下滑往往是悄无声息的：某个模糊点被不同人理解成了不同标准，数据看起来“量够了”，却已经开始偏。我的经验是别把抽检当作“找错”，把抽检当作“校准”。抽检发现的问题，不是某个人的问题，而是系统的问题：规则没覆盖？培训没到位？样本分发不合理？还是你一开始对业务目标理解就偏了？这套校准机制一旦建立起来，项目会明显变稳，你自己也会没那么焦虑。

我很喜欢把 AI 训练师的工作叫“把混沌变成秩序”。听起来有点中二，但它确实能解释我每天在做什么：把一句句像雾一样的需求，揉成一套能落地的规则；把一堆参差不齐的标注，拉到同一条标尺上；把一次次错误，沉淀成下一次的提效。你越做越会发现，这份工作最厉害的地方，不是你记住了多少名词，而是你越来越敢在“模糊”面前把问题问到底。那种把事情做清楚的能力，会在很多岗位里继续发光。