06. RLHF 的完整流程是什么?

整理 RLHF 的训练链路和每个阶段的目的。

简单回答

RLHF 通常是先做监督微调,再训练奖励模型,最后通过强化学习让模型朝高奖励方向优化。

详细解析

  • 第一步是 SFT,让模型先具备基本可用的指令跟随能力。
  • 第二步收集偏好数据,比如同一问题的多个回答由人工排序,用于训练 Reward Model。
  • 第三步使用 PPO 等方法,让模型生成回答并依据奖励模型反馈继续更新。
  • 它的目标是把“人类偏好”显式纳入优化过程,而不仅仅依赖静态监督样本。

面试时可以这样答

回答 RLHF 时,顺序一定要清楚,否则很容易让人觉得只是记了几个名词。

常见追问

  • 为什么需要奖励模型?
  • RLHF 的难点是什么?