19. Constitutional AI 和 RLAIF 是什么?为什么用 AI 反馈代替人类反馈?

整理 Constitutional AI 和 RLAIF 的核心思想、流程与优劣势。

简单回答

Constitutional AI(CAI)是 Anthropic 提出的对齐方法,核心思路是用一组明确写出的"原则"(constitution)配合 LLM 自己来生成对齐数据,而不是依赖大规模人类标注。它分两步:先让 SFT 模型按 constitution 自我批评和修订自己的回答(产生 SFT 数据),再让 LLM 按 constitution 给两段回答打偏好(产生 RLAIF 偏好对)。RLAIF(RL from AI Feedback)就是用 AI 标注的偏好数据替代人类偏好数据来训练 RM,再走 PPO。两者的共同动机是降低对齐数据的成本——人类标注又贵又慢又难保证一致性,用 AI 反馈在多数任务上质量已接近人类标注但成本和速度有数量级优势。

详细解释

为什么要避开人类反馈

本专题第 06 篇文章讲的 RLHF,瓶颈很大一部分在人类反馈这一步。一份生产级 RM 训练数据要几万到几十万对偏好标注,每对要至少一个标注员花几分钟比较两段回答。算下来人力成本动辄几十万到几百万美元,且周期长达数月。

人类标注还有几个固有的质量问题——不同标注员判断不一致(kappa 通常只有 60%-80%)、标注疲劳导致后期质量下降、对复杂技术内容(代码、数学、医学)标注员能力不够、对"安全"这种主观维度难形成统一标准。

CAI 和 RLAIF 的共同出发点:既然 LLM 已经强到能按照清晰的指引做出合理判断,那为什么不让它自己当标注员?人类只需要把"对齐目标"用自然语言写清楚(一份 constitution),后面的数据生成都交给模型。

Constitutional AI 的两阶段流程

CAI 论文里把流程分成两个明确的阶段:SL stage(监督学习)和 RL stage(强化学习)。

SL stage(自我批评 + 修订)

给 SFT 模型一些可能引出问题回答的 prompt(比如可能涉及偏见、有害内容、误导信息的问题),让它先生成一个初版回答

然后用一个 critique prompt 让同一个模型批评自己刚才的回答:"请检查上面的回答是否违反了以下原则——原则 1原则 2……如果违反,请指出具体问题。" 模型输出一段批评

再用一个 revision prompt 让模型基于批评修订回答:"基于上面的批评,请重写一个更符合原则的回答。" 模型输出

当作 SFT 数据训练,让模型学会"直接生成符合原则的回答"——把批评和修订的能力内化进 weight,推理时就不需要显式的两阶段了。

这个阶段产生的数据完全不需要人类标注——人类只需要写好那份 constitution(包含数十条到上百条原则)。

RL stage(AI 偏好 + RM + PPO)

第一阶段后模型已经会按原则回答了,但还要进一步用 RL 优化。这一步需要偏好数据。

CAI 的做法是让 LLM 自己生成偏好对。流程:对同一个 prompt 用 SL 阶段后的模型采样两个回答 ,然后用一个 evaluation prompt 让 LLM(同一个或更强的)判断哪个更符合 constitution:"以下两个回答中,哪个更符合 原则 ?请回答 A 或 B。"

输出的 (prompt, chosen, rejected) 就是一对 AI 标注的偏好数据。规模上可以快速生成几十万对,成本只是 LLM 推理。

剩下的流程和 RLHF 完全一样——用这些偏好对训 Reward Model,然后 PPO 优化 policy。区别只在偏好数据的来源是 AI 不是人。

Constitution 长什么样

Anthropic 公开的 constitution 包含几十条原则,分布在几个维度:

  • 避免有害内容:不要生成可能造成伤害的内容、不要鼓励暴力、不要提供制造武器的具体方法
  • 诚实和透明:不要假装是人类、不要编造没有依据的事实、对自己不确定的事情说不知道
  • 尊重和包容:避免基于种族、性别等的歧视语言
  • 隐私:不要泄露训练数据中的个人信息
  • 法律和道德:不要协助非法活动

这些原则用清晰的自然语言写出来,每条几句到几段。LLM 在 critique 和 evaluation 阶段就以这些原则作为评判标准。

写好 constitution 是 CAI 最关键的人力投入——这个过程需要伦理学家、政策专家、产品经理深度参与,反复打磨。但比起标注百万级偏好数据,这个工作量小一个数量级。

RLAIF 单独是什么

RLAIF(Reinforcement Learning from AI Feedback)是个比 CAI 更广的概念。狭义来说就是 CAI 的 RL stage——用 AI 标注偏好替代人类标注。广义来说任何"用 AI 模型代替人类提供偏好或奖励信号"的方案都可以叫 RLAIF。

Google 2023 年的论文 RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback 系统对比了 RLAIF 和 RLHF。结论:在摘要任务上 RLAIF 和 RLHF 的效果几乎一样(人类评估的胜率 50% 上下),但成本差了一个数量级。在安全相关任务上 RLAIF 甚至略好——可能是因为 AI 标注更一致,没有人类标注员个人偏见的方差。

这个结论比较有冲击力——它说明在很多任务上"人类反馈"的不可替代性其实没想象中那么强。AI 反馈就够用。

优势

成本和速度数量级优势。生成 100 万对偏好数据,人类标注几十万美元几个月,AI 标注几千美元几天。

一致性更好。AI 标注员"不会累"、"不会有情绪"、判断标准在大数据集上比人类一致性高。

可控性更强。constitution 是显式写出来的,想调整对齐目标就改 constitution 重生成数据。人类标注的隐性偏好藏在标注里,调整困难。

覆盖度可拉满。AI 可以无限生成多样化 prompt 然后自评,覆盖人类标注难以触及的边缘场景。

局限和风险

AI 反馈的天花板就是评估模型本身。如果用 GPT-4 评估的话,对齐效果上限就被 GPT-4 自己的判断力锁住了。如果想训出比 GPT-4 更对齐的模型,AI 反馈不够。

偏见会被放大。AI 评估模型自身的偏见会通过偏好数据传递到 RM,再通过 PPO 传递到 policy,最终在最终模型上放大。这是 RLAIF 链路最大的隐性风险。

对模糊的、主观的、文化敏感的判断不够好。比如什么是"礼貌"、什么是"文化适宜",AI 在这些维度上的判断仍然不如人类多样化标注稳定。

Constitution 本身有局限。原则之间可能冲突("详细帮助用户" vs "拒绝有害请求"),constitution 没法穷举所有情况。LLM 在 constitution 没明确覆盖的边角情况上判断仍然不可靠。

实际工业界的混合方案

CAI 和 RLAIF 在工业界很少独立使用,更常见的是混合:

  • 大规模 AI 反馈 + 小规模人类校准:用 AI 生成几十万对偏好数据,再用几千对高质量人类偏好数据"校准"——可能用人类数据训一个轻量的 RM,再和 AI RM 做 ensemble。
  • AI 一刀粗筛 + 人类精筛:所有偏好对先让 AI 标注,分歧大或边界模糊的样本再让人类标注。能用 5% 的人类成本拿到 80% 的人类标注质量。
  • CAI for safety, RLHF for quality:在安全维度上用 CAI(原则清晰、AI 判断稳定),在内容质量维度上用 RLHF(更细腻的人类品味)。

这些混合方案的目标是在成本、质量、可控性之间取最优组合。

面试时可以这样答

Constitutional AI 是 Anthropic 提出的对齐方法,核心是用一份显式的"原则书"(constitution)配合 LLM 自己生成对齐数据,避开大规模人类标注。流程分两步——先让 SFT 模型按 constitution 自我批评和修订回答产生 SFT 数据,再让 LLM 按 constitution 评判两段回答的优劣产生偏好对,然后正常走 RM + PPO。

RLAIF 是更广的概念——任何"用 AI 替代人类标注偏好或提供奖励"的方案都算。Google 的论文系统对比过 RLAIF 和 RLHF,在摘要等任务上效果几乎相同,但成本差一个数量级。

优势主要在三方面。成本和速度——AI 标注 100 万对几千美元几天,人类要几十万美元几个月。一致性——AI 不疲劳没情绪,标注一致性比人类高。可控性——constitution 是明文的,调整对齐目标改 constitution 重生成数据就行,人类标注的隐性偏好难以调整。

局限也明显。第一是天花板——AI 反馈的上限就是评估模型本身的判断力,想训出比评估模型更对齐的模型 AI 反馈不够。第二是偏见放大——评估模型的偏见会通过偏好数据传递到最终模型并放大。第三是 constitution 本身写不全所有情况,边角案例 LLM 判断仍然不稳。

工业界很少独立用 CAI/RLAIF,常见混合方案是大规模 AI 反馈 + 小规模人类校准,或者 AI 粗筛 + 人类精筛分歧样本,在成本和质量之间取平衡。

常见追问

  1. Constitution 写到多详细比较合适?太抽象 LLM 用不上,太具体又写不完。
  2. CAI 的 SL stage 中用同一个模型自我批评,会不会陷入"自圆其说"?
  3. 如果想训一个比 GPT-4 更对齐的模型,能用 GPT-4 做 RLAIF 吗?