06. RLHF 的完整流程是什么?
整理 RLHF 的训练链路和每个阶段的目的。
简单回答
RLHF 通常是先做监督微调,再训练奖励模型,最后通过强化学习让模型朝高奖励方向优化。
详细解析
- 第一步是 SFT,让模型先具备基本可用的指令跟随能力。
- 第二步收集偏好数据,比如同一问题的多个回答由人工排序,用于训练 Reward Model。
- 第三步使用 PPO 等方法,让模型生成回答并依据奖励模型反馈继续更新。
- 它的目标是把“人类偏好”显式纳入优化过程,而不仅仅依赖静态监督样本。
面试时可以这样答
回答 RLHF 时,顺序一定要清楚,否则很容易让人觉得只是记了几个名词。
常见追问
- 为什么需要奖励模型?
- RLHF 的难点是什么?