19. Constitutional AI 和 RLAIF 是什么？为什么用 AI 反馈代替人类反馈？

整理 Constitutional AI 和 RLAIF 的核心思想、流程与优劣势。

简单回答

Constitutional AI（CAI）是 Anthropic 提出的对齐方法，核心思路是用一组明确写出的"原则"（constitution）配合 LLM 自己来生成对齐数据，而不是依赖大规模人类标注。它分两步：先让 SFT 模型按 constitution 自我批评和修订自己的回答（产生 SFT 数据），再让 LLM 按 constitution 给两段回答打偏好（产生 RLAIF 偏好对）。RLAIF（RL from AI Feedback）就是用 AI 标注的偏好数据替代人类偏好数据来训练 RM，再走 PPO。两者的共同动机是降低对齐数据的成本——人类标注又贵又慢又难保证一致性，用 AI 反馈在多数任务上质量已接近人类标注但成本和速度有数量级优势。

详细解释

为什么要避开人类反馈

本专题第 06 篇文章讲的 RLHF，瓶颈很大一部分在人类反馈这一步。一份生产级 RM 训练数据要几万到几十万对偏好标注，每对要至少一个标注员花几分钟比较两段回答。算下来人力成本动辄几十万到几百万美元，且周期长达数月。

人类标注还有几个固有的质量问题——不同标注员判断不一致（kappa 通常只有 60%-80%）、标注疲劳导致后期质量下降、对复杂技术内容（代码、数学、医学）标注员能力不够、对"安全"这种主观维度难形成统一标准。

CAI 和 RLAIF 的共同出发点：既然 LLM 已经强到能按照清晰的指引做出合理判断，那为什么不让它自己当标注员？人类只需要把"对齐目标"用自然语言写清楚（一份 constitution），后面的数据生成都交给模型。

Constitutional AI 的两阶段流程

CAI 论文里把流程分成两个明确的阶段：SL stage（监督学习）和 RL stage（强化学习）。

SL stage（自我批评 + 修订）

给 SFT 模型一些可能引出问题回答的 prompt（比如可能涉及偏见、有害内容、误导信息的问题），让它先生成一个初版回答 $y_{0}$ 。

然后用一个 critique prompt 让同一个模型批评自己刚才的回答："请检查上面的回答是否违反了以下原则——原则 1、原则 2……如果违反，请指出具体问题。" 模型输出一段批评 $c$ 。

再用一个 revision prompt 让模型基于批评修订回答："基于上面的批评，请重写一个更符合原则的回答。" 模型输出 $y_{1}$ 。

把 $(p r o m pt, y_{1})$ 当作 SFT 数据训练，让模型学会"直接生成符合原则的回答"——把批评和修订的能力内化进 weight，推理时就不需要显式的两阶段了。

这个阶段产生的数据完全不需要人类标注——人类只需要写好那份 constitution（包含数十条到上百条原则）。

RL stage（AI 偏好 + RM + PPO）

第一阶段后模型已经会按原则回答了，但还要进一步用 RL 优化。这一步需要偏好数据。

CAI 的做法是让 LLM 自己生成偏好对。流程：对同一个 prompt 用 SL 阶段后的模型采样两个回答 $y_{a}, y_{b}$ ，然后用一个 evaluation prompt 让 LLM（同一个或更强的）判断哪个更符合 constitution："以下两个回答中，哪个更符合原则？请回答 A 或 B。"

输出的 (prompt, chosen, rejected) 就是一对 AI 标注的偏好数据。规模上可以快速生成几十万对，成本只是 LLM 推理。

剩下的流程和 RLHF 完全一样——用这些偏好对训 Reward Model，然后 PPO 优化 policy。区别只在偏好数据的来源是 AI 不是人。

Constitution 长什么样

Anthropic 公开的 constitution 包含几十条原则，分布在几个维度：

避免有害内容：不要生成可能造成伤害的内容、不要鼓励暴力、不要提供制造武器的具体方法
诚实和透明：不要假装是人类、不要编造没有依据的事实、对自己不确定的事情说不知道
尊重和包容：避免基于种族、性别等的歧视语言
隐私：不要泄露训练数据中的个人信息
法律和道德：不要协助非法活动

这些原则用清晰的自然语言写出来，每条几句到几段。LLM 在 critique 和 evaluation 阶段就以这些原则作为评判标准。

写好 constitution 是 CAI 最关键的人力投入——这个过程需要伦理学家、政策专家、产品经理深度参与，反复打磨。但比起标注百万级偏好数据，这个工作量小一个数量级。

RLAIF 单独是什么

RLAIF（Reinforcement Learning from AI Feedback）是个比 CAI 更广的概念。狭义来说就是 CAI 的 RL stage——用 AI 标注偏好替代人类标注。广义来说任何"用 AI 模型代替人类提供偏好或奖励信号"的方案都可以叫 RLAIF。

Google 2023 年的论文 RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback 系统对比了 RLAIF 和 RLHF。结论：在摘要任务上 RLAIF 和 RLHF 的效果几乎一样（人类评估的胜率 50% 上下），但成本差了一个数量级。在安全相关任务上 RLAIF 甚至略好——可能是因为 AI 标注更一致，没有人类标注员个人偏见的方差。

这个结论比较有冲击力——它说明在很多任务上"人类反馈"的不可替代性其实没想象中那么强。AI 反馈就够用。

优势

成本和速度数量级优势。生成 100 万对偏好数据，人类标注几十万美元几个月，AI 标注几千美元几天。

一致性更好。AI 标注员"不会累"、"不会有情绪"、判断标准在大数据集上比人类一致性高。

可控性更强。constitution 是显式写出来的，想调整对齐目标就改 constitution 重生成数据。人类标注的隐性偏好藏在标注里，调整困难。

覆盖度可拉满。AI 可以无限生成多样化 prompt 然后自评，覆盖人类标注难以触及的边缘场景。

局限和风险

AI 反馈的天花板就是评估模型本身。如果用 GPT-4 评估的话，对齐效果上限就被 GPT-4 自己的判断力锁住了。如果想训出比 GPT-4 更对齐的模型，AI 反馈不够。

偏见会被放大。AI 评估模型自身的偏见会通过偏好数据传递到 RM，再通过 PPO 传递到 policy，最终在最终模型上放大。这是 RLAIF 链路最大的隐性风险。

对模糊的、主观的、文化敏感的判断不够好。比如什么是"礼貌"、什么是"文化适宜"，AI 在这些维度上的判断仍然不如人类多样化标注稳定。

Constitution 本身有局限。原则之间可能冲突（"详细帮助用户" vs "拒绝有害请求"），constitution 没法穷举所有情况。LLM 在 constitution 没明确覆盖的边角情况上判断仍然不可靠。

实际工业界的混合方案

CAI 和 RLAIF 在工业界很少独立使用，更常见的是混合：

大规模 AI 反馈 + 小规模人类校准：用 AI 生成几十万对偏好数据，再用几千对高质量人类偏好数据"校准"——可能用人类数据训一个轻量的 RM，再和 AI RM 做 ensemble。
AI 一刀粗筛 + 人类精筛：所有偏好对先让 AI 标注，分歧大或边界模糊的样本再让人类标注。能用 5% 的人类成本拿到 80% 的人类标注质量。
CAI for safety, RLHF for quality：在安全维度上用 CAI（原则清晰、AI 判断稳定），在内容质量维度上用 RLHF（更细腻的人类品味）。

这些混合方案的目标是在成本、质量、可控性之间取最优组合。

面试时可以这样答

Constitutional AI 是 Anthropic 提出的对齐方法，核心是用一份显式的"原则书"（constitution）配合 LLM 自己生成对齐数据，避开大规模人类标注。流程分两步——先让 SFT 模型按 constitution 自我批评和修订回答产生 SFT 数据，再让 LLM 按 constitution 评判两段回答的优劣产生偏好对，然后正常走 RM + PPO。
RLAIF 是更广的概念——任何"用 AI 替代人类标注偏好或提供奖励"的方案都算。Google 的论文系统对比过 RLAIF 和 RLHF，在摘要等任务上效果几乎相同，但成本差一个数量级。
优势主要在三方面。成本和速度——AI 标注 100 万对几千美元几天，人类要几十万美元几个月。一致性——AI 不疲劳没情绪，标注一致性比人类高。可控性——constitution 是明文的，调整对齐目标改 constitution 重生成数据就行，人类标注的隐性偏好难以调整。
局限也明显。第一是天花板——AI 反馈的上限就是评估模型本身的判断力，想训出比评估模型更对齐的模型 AI 反馈不够。第二是偏见放大——评估模型的偏见会通过偏好数据传递到最终模型并放大。第三是 constitution 本身写不全所有情况，边角案例 LLM 判断仍然不稳。
工业界很少独立用 CAI/RLAIF，常见混合方案是大规模 AI 反馈 + 小规模人类校准，或者 AI 粗筛 + 人类精筛分歧样本，在成本和质量之间取平衡。

常见追问

Constitution 写到多详细比较合适？太抽象 LLM 用不上，太具体又写不完。
CAI 的 SL stage 中用同一个模型自我批评，会不会陷入"自圆其说"？
如果想训一个比 GPT-4 更对齐的模型，能用 GPT-4 做 RLAIF 吗？

18. Reward Model 怎么设计和训练？质量直接决定 RLHF 上限

01. Prefill 和 Decode 有什么区别？各自的瓶颈是什么？