07. DPO 和 RLHF 相比有什么区别?
整理 DPO 与 RLHF 的训练思路差异。
简单回答
DPO 试图直接利用偏好数据优化策略,不再显式训练奖励模型和跑强化学习回路,因此链路更短、更稳定。
详细解析
- RLHF 是“学一个奖励函数,再用 RL 优化策略”,DPO 更像是“直接根据偏好对比优化输出概率”。
- DPO 通常训练更简单,调参负担更小,因此在很多工业实践里很受欢迎。
- 但它也不是对所有场景都更好,若需要更复杂的在线反馈闭环,RLHF 仍然有价值。
- 面试里重点不是站队,而是能说出两者分别解决什么工程问题。
面试时可以这样答
建议把回答组织成三点:训练链路、实现复杂度、适用场景。
常见追问
- DPO 为什么更容易落地?
- DPO 能完全替代 RLHF 吗?