我第一次听到业务同学说“让模型更懂用户一点”的时候,脑子里其实是空的。不是我不懂模型,而是这句话太像一种愿望——像“希望天气好一点”“希望项目顺一点”。你没法拿着愿望去干活,但你得把它变成今天能做的三件事、明天能验收的两条标准、下周能交付的一个结果。那一刻我才意识到,AI 训练师更像一个把“模糊”加工成“可执行”的人:不是魔法师,是手艺人。
我后来给自己定了个土办法:任何需求只要一出现“更”“更好”“更智能”“更像人”这种词,我就自动进入“追问模式”。不是为了刁难,而是为了救项目。你可以把它想象成把一团棉花揉成一块砖:第一步总要找边界。What 到底做什么?是分类、打分,还是改写?输出长什么样?Why 为什么做?是降低投诉还是提升转化?When 什么时候要?是要先出个试验版还是直接上量?Who 谁拍板?谁负责提供数据?谁负责验收?How 数据怎么进来,怎么出去?How much 数据量、准确率、预算、周期——这些问题问完,需求才从“愿望”变成“工程”。
很多新人(包括我自己)一开始会怕问太多,担心显得不专业。后来我发现,真正不专业的反而是“没问清楚就开干”。因为规则一旦写歪,下游标注会更痛苦,返工会更贵,模型训练的时间也会被浪费。你写的每一句规则,最后都会变成一笔成本:要么省钱,要么烧钱。
规则文档这件事也很像写说明书。说明书最怕的不是“短”,而是“含糊”。我现在写规则会刻意把自己当成第一次接触任务的人:我能不能一眼看懂我要标什么?我会不会把两个概念混在一起?边界情况放哪儿?我最常见的做法是把“定义”写得克制,把“例子”写得奢侈——正例、反例、边界例都要有,而且要选那种真实会让人犹豫的句子。因为标注员不是在做选择题,他们是在做判断题;判断题最要命的,是你没告诉他“犹豫的时候该怎么做”。
项目推进到中段,最容易出现的一个幻觉是:大家都在产出,于是你以为一切都在变好。实际上,质量下滑往往是悄无声息的:某个模糊点被不同人理解成了不同标准,数据看起来“量够了”,却已经开始偏。我的经验是别把抽检当作“找错”,把抽检当作“校准”。抽检发现的问题,不是某个人的问题,而是系统的问题:规则没覆盖?培训没到位?样本分发不合理?还是你一开始对业务目标理解就偏了?这套校准机制一旦建立起来,项目会明显变稳,你自己也会没那么焦虑。
我很喜欢把 AI 训练师的工作叫“把混沌变成秩序”。听起来有点中二,但它确实能解释我每天在做什么:把一句句像雾一样的需求,揉成一套能落地的规则;把一堆参差不齐的标注,拉到同一条标尺上;把一次次错误,沉淀成下一次的提效。你越做越会发现,这份工作最厉害的地方,不是你记住了多少名词,而是你越来越敢在“模糊”面前把问题问到底。那种把事情做清楚的能力,会在很多岗位里继续发光。
