10. 模型对齐评测：安全性、Helpfulness、Harmlessness 怎么量化？

整理模型对齐评测中安全性、Helpfulness、Harmlessness 的量化方法与权衡。

简单回答

对齐评测的核心是衡量模型在安全性（不产生有害内容）、有帮助性（真正满足用户需求）、诚实性（不产生错误信息）三个维度上的表现。这三个维度之间存在内在张力——过度保守的安全策略会损害 Helpfulness，过度追求 Helpfulness 可能降低安全性。量化这三个维度通常需要结合专门构建的对抗测试集、LLM Judge 打分、以及真实用户满意度指标，没有单一指标能全面反映"对齐质量"。

详细解答

三个维度的内在张力

Anthropic 的 HHH 框架（Helpful、Honest、Harmless）是最广泛引用的对齐目标框架。但这三者在实践中存在真实的冲突，不能只追求其中一个。

一个典型的冲突场景：用户问"如何合成某种化学品"，这个问题本身有合理的化学学习需求，但也可能被用于有害目的。一个"最安全"的策略是拒绝所有此类问题（Harmless 最大化），但这会让模型对合理的学习需求也毫无帮助（Helpfulness 最小化）。一个"最有帮助"的策略是详细回答，但带来了安全风险。对齐的目标是在这个空间里找到合理的平衡点，而不是极端地优化某一个维度。

Alignment Tax（对齐税）是这个张力的量化表现：经过安全对齐的模型，在某些任务上的能力得分会低于未对齐版本，这个性能损失就是"为安全付出的代价"。

安全性的评测

对抗测试集：构建专门的"红队测试集"，包含各类有害请求——直接有害（如何伤害他人）、间接引导（通过角色扮演或假设场景绕过安全）、越狱技巧（特定格式的 prompt 注入）等。评测时记录模型拒绝率和拒绝质量（拒绝是否合理、是否解释了原因、是否提供了替代帮助）。

关键指标：Attack Success Rate（ASR）——对一批对抗样本，模型产生有害输出的比例越低越好；False Refusal Rate（FRR）——对合理的请求，模型错误拒绝的比例，太高会损害 Helpfulness。

分类法：安全风险按类型分类（色情内容、暴力、虚假信息、歧视言论、隐私泄露等），每个类型单独评测，因为模型在不同类型上的表现差异可能很大，只看综合拒绝率会掩盖具体问题。

AdvBench 和 HarmBench：这些是专门用于红队测试的 benchmark，包含设计好的对抗 prompt，用来系统性地测试模型的安全边界。

有帮助性的评测

任务完成率：对于有明确完成标准的任务（代码运行通过、数学题答案正确、信息检索命中率），直接测任务完成率。

LLM Judge 打分：对于开放性任务（写作、对话、解释），用 LLM Judge 评判回答是否真正解决了用户的问题，是否提供了足够的信息量，是否给出了可操作的建议。

对比人类最优答案：构建测试集时同时准备"理想回答"，用嵌入相似度或 LLM Judge 评判模型回答和理想回答的差距。

用户满意度（线上指标）：最终的 Helpfulness 指标是用户满意度——用户有没有完成他们想完成的任务，是否需要多次追问，是否直接退出（负向信号）。

Refusal 质量评测：安全拒绝也有"质量"的差异——拒绝时有没有说明原因、有没有提供替代帮助、语气是否尊重用户。一个"我无法帮助你做这件事，但如果你的目的是 X，我可以帮你 Y"的拒绝，比"这是不当请求，我无法回答"要好得多。

诚实性的评测

幻觉率（Hallucination Rate）：评测模型在事实性问题上产生错误信息的比例。构建事实性测试集，要求模型回答有确定正确答案的问题（人物生卒年月、历史事件、科学常识等），验证答案是否正确。

不确定性校准（Calibration）：一个诚实的模型应该对自己不确定的事情表达不确定（说"我不确定"、"这超出了我的知识范围"），而不是以同等的自信心陈述正确和错误的信息。用 ECE（Expected Calibration Error）来衡量模型的置信度和实际准确率是否匹配。

SimpleQA 和 TruthfulQA：SimpleQA（OpenAI 2024）是专门构建的事实问答 benchmark，每道题有明确正确答案，专门测试模型的事实准确性和拒绝回答不确定内容的能力；TruthfulQA 测模型有没有人类常见的错误信念（比如迷信、误传的"知识"）。

综合评测框架

单独看每个维度会有局限。Anthropic 内部和学术界都在探索更综合的对齐评测框架，核心思路是：

Helpful but Safe（既有帮助又安全）：不只是测"有没有拒绝有害请求"，而是同时测"对合理请求有没有过度拒绝"，把两者放在一起看。MT-Bench 的 Helpfulness 分加上 HarmBench 的 ASR，组合起来比单看一个更有意义。

多样性测试：用户群体多样，不同文化背景、年龄、使用目的对"有帮助"和"有害"的界定可能不同。评测集应该覆盖多样化的用户场景，而不只是英文用户的典型场景。

边界测试：专门测试"灰色地带"——既不明显有害也不明显安全的请求，看模型在这个区域的判断是否合理、一致。这类 case 最能体现对齐策略的细节差异。

面试时可以这样答

对齐评测的框架通常是 HHH：Helpful、Honest、Harmless，但这三者之间有真实的张力，不能极端地优化其中一个。
安全性评测：构建对抗测试集，覆盖直接有害请求、越狱技巧、角色扮演绕过等，核心指标是 ASR（攻击成功率，越低越好）和 FRR（误拒率，太高会损害 Helpfulness）。光看拒绝率不够，拒绝的质量也要评——有没有给出理由、有没有提供替代帮助。
Helpfulness 评测：有客观答案的用规则验证，开放性任务用 LLM Judge，最终的金标准是线上用户满意度。SimpleQA、TruthfulQA 专门测事实准确性，ECE 测模型对自己不确定的内容能不能正确表达不确定。
最重要的一点是不能单独评某个维度，要把 Helpful 和 Safe 放在一起看。一个高安全但拒绝合理请求很多的模型，和一个低安全但什么都答的模型，都是对齐失败的案例。需要同时看两个维度，找到它们之间合理的 trade-off 点。

常见追问

Alignment Tax 有没有办法量化？具体怎么测？
针对越狱（Jailbreak）的评测应该怎么设计？有哪些标准化的测试集？
在不同文化背景下，"有害"内容的定义可能不同，多文化的安全性评测怎么做？

09. 人工评测的 SOP 和标注一致性怎么保证？

01. Zero-shot 和 Few-shot 分别适合什么场景？Few-shot 的例子怎么选？