09. 人工评测的 SOP 和标注一致性怎么保证?
整理人工评测 SOP、标注一致性、校准流程与 Cohen's Kappa 监控。
简单回答
人工评测的最大问题是标注者之间的主观差异导致结果不可靠。保证一致性的核心手段是:设计明确具体的标注规范(SOP)、使用相对比较而非绝对打分、对每条数据用多人重复标注取多数投票、通过校准会议对齐标注标准、以及用 Cohen's Kappa 等指标持续监控标注一致性。
详细解答
标注规范(SOP)的设计
SOP 的质量直接决定了标注数据的可用性。一份好的标注 SOP 有几个特点:
具体而非抽象:不能只说"评判回答是否有帮助",要定义"有帮助"的各个维度并给出示例。比如:回答是否直接解答了用户的问题(1分)、是否提供了足够的细节(2分)、是否有明确的行动指导(3分)……每个分数档都要有具体的描述,最好有例子。
处理边界情况:边界情况是标注分歧最大的地方,SOP 必须专门说明怎么处理。比如:如果回答部分正确怎么打分?如果回答对问题有帮助但包含一处事实错误呢?如果回答很简短但完全准确呢?这些"如果"在不同标注者那里很容易得到不同结论,SOP 里要明确。
层级决策树结构:对于复杂任务,SOP 可以设计成决策树——先判断 A,如果 A 满足再看 B,不满足走另一条路。这比"综合打一个分"的方式更有结构,标注者更容易保持一致。
举例驱动:SOP 里的每条规则都应该配上"正例"(应该怎么打分)和"反例"(容易误解的情况)。抽象的规则标注者理解可能不同,但具体例子的分歧会小很多。
评测任务的设计
相对比较优于绝对打分:让标注者给回答打一个绝对分数(比如 1~5 分),不同标注者对分数的理解差异很大(有人觉得"还行"是 3 分,有人觉得是 4 分)。让标注者做成对比较(A 比 B 好/差/差不多)通常一致性更高,因为比较的参照物就在眼前,不依赖个人的绝对量化标准。
拆分维度比综合打分更可靠:一个综合分把多个维度混在一起,标注者会因为侧重不同维度而产生分歧。拆分成多个维度(准确性、有帮助程度、语气、安全性各自独立打分)的一致性通常比综合分高,而且出了分歧能定位是哪个维度不一致。
避免过长的标注界面:每次展示给标注者的上下文要控制在合理范围内。过长的对话历史或背景材料会导致标注者疲惫,判断质量下降。
一致性校准和监控
校准会议(Calibration Session):在正式标注开始前,以及定期(比如每两周)举行校准会议。拿一批有争议的样本,让所有标注者独立打分,然后一起讨论分歧——为什么会有不同结论,SOP 是否需要更新。通过校准会议,标注者对"标准"的理解会逐渐对齐,后续标注的一致性会提升。
重叠标注(Overlap Annotation):对每条数据,让两个或三个标注者独立标注,取多数投票。重叠比例通常是 10%~30%,完全一致的数据只标注一次,有争议的数据增加标注人数。
**Cohen's Kappa(κ)**是衡量标注一致性的标准指标:
其中 是实际一致率, 是期望(随机)一致率。 是完全一致, 是随机水平, 是比随机更差。
经验标准: 说明标注质量很差,SOP 有严重问题; 是中等,可用但需要改进; 是良好; 是优秀,难以达到但是目标。
实际大模型评测里, 是比较常见的水平,对于高度主观的任务(写作质量、语气合适性), 很难超过 0.7。
实时监控:在标注平台上实时计算每个标注者的 Kappa,以及和"黄金标准"样本(提前标注好的高质量参考样本)的一致率。Kappa 持续下降的标注者可能在疲劳操作或者理解出了偏差,需要及时介入。
标注者的选取和培训
选取标准:不同任务对标注者有不同要求。通用对话任务可以用受过基本培训的众包标注者;专业任务(医学建议、代码质量、法律分析)必须用领域专家,错误的"权威标注"比没有标注更危害模型质量。
培训和测试:正式开始标注前,先给标注者一批已知答案的"测试题",只有通过率达到阈值才能参与正式标注。这既是培训(通过做题熟悉任务),也是质控(过滤掉理解有问题的标注者)。
防疲劳设计:每次标注任务不要太长,通常一个 session 控制在 30~60 分钟内,加入适量的"休息题"(明显的难度断点,让标注者重新专注)。
面试时可以这样答
人工评测的核心挑战是标注者主观差异导致结果不可靠,解决方案是从三个层面入手。
SOP 层面:规范要具体,每个分数档配例子,边界情况要单独说明,不能只写"评判是否有帮助"这种抽象描述。成对比较比绝对打分一致性更高,多维度分开打比综合分更可靠。
流程层面:定期开校准会议,拿争议样本一起讨论对齐;10%~30% 的数据做多人重叠标注取多数;给标注者提前做"黄金标准"测试,过了才能正式参与。
监控层面:实时计算 Cohen's Kappa, 是可接受的门槛, 说明 SOP 有严重问题。Kappa 突然下降的标注者要立刻介入,可能在疲劳操作或理解跑偏了。
常见追问
- Cohen's Kappa 和 Fleiss' Kappa 有什么区别?什么时候用哪个?
- 标注者之间有分歧的样本,是该直接丢弃还是怎么处理?
- 线上用户的反馈(点赞/踩)能不能直接用作"人工评测数据"?