07. DPO 和 RLHF 相比有什么区别?

整理 DPO 与 RLHF 的训练思路差异。

简单回答

DPO 试图直接利用偏好数据优化策略,不再显式训练奖励模型和跑强化学习回路,因此链路更短、更稳定。

详细解析

  • RLHF 是“学一个奖励函数,再用 RL 优化策略”,DPO 更像是“直接根据偏好对比优化输出概率”。
  • DPO 通常训练更简单,调参负担更小,因此在很多工业实践里很受欢迎。
  • 但它也不是对所有场景都更好,若需要更复杂的在线反馈闭环,RLHF 仍然有价值。
  • 面试里重点不是站队,而是能说出两者分别解决什么工程问题。

面试时可以这样答

建议把回答组织成三点:训练链路、实现复杂度、适用场景。

常见追问

  • DPO 为什么更容易落地?
  • DPO 能完全替代 RLHF 吗?