09. 人工评测的 SOP 和标注一致性怎么保证？

整理人工评测 SOP、标注一致性、校准流程与 Cohen's Kappa 监控。

简单回答

人工评测的最大问题是标注者之间的主观差异导致结果不可靠。保证一致性的核心手段是：设计明确具体的标注规范（SOP）、使用相对比较而非绝对打分、对每条数据用多人重复标注取多数投票、通过校准会议对齐标注标准、以及用 Cohen's Kappa 等指标持续监控标注一致性。

详细解答

标注规范（SOP）的设计

SOP 的质量直接决定了标注数据的可用性。一份好的标注 SOP 有几个特点：

具体而非抽象：不能只说"评判回答是否有帮助"，要定义"有帮助"的各个维度并给出示例。比如：回答是否直接解答了用户的问题（1分）、是否提供了足够的细节（2分）、是否有明确的行动指导（3分）……每个分数档都要有具体的描述，最好有例子。

处理边界情况：边界情况是标注分歧最大的地方，SOP 必须专门说明怎么处理。比如：如果回答部分正确怎么打分？如果回答对问题有帮助但包含一处事实错误呢？如果回答很简短但完全准确呢？这些"如果"在不同标注者那里很容易得到不同结论，SOP 里要明确。

层级决策树结构：对于复杂任务，SOP 可以设计成决策树——先判断 A，如果 A 满足再看 B，不满足走另一条路。这比"综合打一个分"的方式更有结构，标注者更容易保持一致。

举例驱动：SOP 里的每条规则都应该配上"正例"（应该怎么打分）和"反例"（容易误解的情况）。抽象的规则标注者理解可能不同，但具体例子的分歧会小很多。

评测任务的设计

相对比较优于绝对打分：让标注者给回答打一个绝对分数（比如 1~5 分），不同标注者对分数的理解差异很大（有人觉得"还行"是 3 分，有人觉得是 4 分）。让标注者做成对比较（A 比 B 好/差/差不多）通常一致性更高，因为比较的参照物就在眼前，不依赖个人的绝对量化标准。

拆分维度比综合打分更可靠：一个综合分把多个维度混在一起，标注者会因为侧重不同维度而产生分歧。拆分成多个维度（准确性、有帮助程度、语气、安全性各自独立打分）的一致性通常比综合分高，而且出了分歧能定位是哪个维度不一致。

避免过长的标注界面：每次展示给标注者的上下文要控制在合理范围内。过长的对话历史或背景材料会导致标注者疲惫，判断质量下降。

一致性校准和监控

校准会议（Calibration Session）：在正式标注开始前，以及定期（比如每两周）举行校准会议。拿一批有争议的样本，让所有标注者独立打分，然后一起讨论分歧——为什么会有不同结论，SOP 是否需要更新。通过校准会议，标注者对"标准"的理解会逐渐对齐，后续标注的一致性会提升。

重叠标注（Overlap Annotation）：对每条数据，让两个或三个标注者独立标注，取多数投票。重叠比例通常是 10%~30%，完全一致的数据只标注一次，有争议的数据增加标注人数。

**Cohen's Kappa（κ）**是衡量标注一致性的标准指标：

$κ = \frac{P _{o} - P _{e}}{1 - P _{e}}$

其中 $P_{o}$ 是实际一致率， $P_{e}$ 是期望（随机）一致率。 $κ = 1$ 是完全一致， $κ = 0$ 是随机水平， $κ < 0$ 是比随机更差。

经验标准： $κ < 0.4$ 说明标注质量很差，SOP 有严重问题； $κ \in [0.4, 0.6]$ 是中等，可用但需要改进； $κ \in [0.6, 0.8]$ 是良好； $κ > 0.8$ 是优秀，难以达到但是目标。

实际大模型评测里， $κ \in [0.6, 0.75]$ 是比较常见的水平，对于高度主观的任务（写作质量、语气合适性）， $κ$ 很难超过 0.7。

实时监控：在标注平台上实时计算每个标注者的 Kappa，以及和"黄金标准"样本（提前标注好的高质量参考样本）的一致率。Kappa 持续下降的标注者可能在疲劳操作或者理解出了偏差，需要及时介入。

标注者的选取和培训

选取标准：不同任务对标注者有不同要求。通用对话任务可以用受过基本培训的众包标注者；专业任务（医学建议、代码质量、法律分析）必须用领域专家，错误的"权威标注"比没有标注更危害模型质量。

培训和测试：正式开始标注前，先给标注者一批已知答案的"测试题"，只有通过率达到阈值才能参与正式标注。这既是培训（通过做题熟悉任务），也是质控（过滤掉理解有问题的标注者）。

防疲劳设计：每次标注任务不要太长，通常一个 session 控制在 30~60 分钟内，加入适量的"休息题"（明显的难度断点，让标注者重新专注）。

面试时可以这样答

人工评测的核心挑战是标注者主观差异导致结果不可靠，解决方案是从三个层面入手。
SOP 层面：规范要具体，每个分数档配例子，边界情况要单独说明，不能只写"评判是否有帮助"这种抽象描述。成对比较比绝对打分一致性更高，多维度分开打比综合分更可靠。
流程层面：定期开校准会议，拿争议样本一起讨论对齐；10%~30% 的数据做多人重叠标注取多数；给标注者提前做"黄金标准"测试，过了才能正式参与。
监控层面：实时计算 Cohen's Kappa， $κ > 0.6$ 是可接受的门槛， $κ < 0.4$ 说明 SOP 有严重问题。Kappa 突然下降的标注者要立刻介入，可能在疲劳操作或理解跑偏了。

常见追问

Cohen's Kappa 和 Fleiss' Kappa 有什么区别？什么时候用哪个？
标注者之间有分歧的样本，是该直接丢弃还是怎么处理？
线上用户的反馈（点赞/踩）能不能直接用作"人工评测数据"？

08. 如何设计一套贴近业务的离线评测流水线？

10. 模型对齐评测：安全性、Helpfulness、Harmlessness 怎么量化？