16. 什么是 Reasoning Model(如 o1、DeepSeek-R1)?它和普通 LLM 有什么区别?

整理 Reasoning Model 的定义、训练方式与普通 LLM 的区别。

简单回答

Reasoning Model 是指在推理阶段会进行显式的长链思考(chain-of-thought)的模型,如 OpenAI 的 o1 和 DeepSeek-R1。和普通 LLM 的核心区别在于:普通 LLM 一步直接给答案,Reasoning Model 会先生成大量的"思考过程"(thinking tokens),通过试错、反思、验证来逐步推理出答案。它的训练通常依赖强化学习(如 GRPO),让模型学会"思考得更好"。

详细解释

核心区别:System 1 vs System 2

用 Kahneman 的理论来类比:普通 LLM 像 System 1,快速直觉式响应;Reasoning Model 像 System 2,慢速但深入的分析推理。

具体表现上,普通 LLM 收到问题后直接开始生成回答。Reasoning Model 则会先生成一段(有时很长的)"思维链",在这个过程中可能会尝试多条路径、发现错误后自我纠正、做验证等。最终只把结论呈现给用户,中间的思考过程可以选择展示或隐藏。

训练方法的区别

普通 LLM 的训练路径:预训练 → SFT → RLHF/DPO。Reasoning Model 在此基础上,通常还有一个专门的 RL 阶段,用来训练模型的"思考能力"。

DeepSeek-R1 的方案特别值得了解。它的技术路线大致是:先用 DeepSeek-V3 作为 base 模型;然后在 RL 阶段(使用 GRPO,不需要单独训练 Reward Model),用数学和代码这类有明确正确答案的任务作为训练信号;模型在 RL 过程中自然涌现出了 CoT 推理行为——这一点非常关键,不是人工标注 CoT 数据教出来的,而是 RL 的 reward 信号引导模型自己学会了分步思考。

Test-Time Compute 的概念

Reasoning Model 的一个重要特性是:可以通过增加推理时的计算量(生成更多 thinking tokens)来提升效果。这和传统的 scaling(增大模型)不同,是一种"推理时扩展"。思考越久,答案质量越高,但计算成本也越高。

局限性

Reasoning Model 在数学、代码、逻辑推理上表现显著优于普通 LLM,但在简单任务上会"过度思考",浪费 token 和时间。对于创意写作、日常对话等任务,Reasoning Model 的优势不明显甚至可能更差。它的推理成本也明显更高。

面试时可以这样答

Reasoning Model 最核心的区别是它在推理阶段会进行显式的长链思考。普通 LLM 收到问题直接生成答案,Reasoning Model 会先产生大量的 thinking tokens,在这个过程中做多路尝试、自我验证、纠错,最后才给出结论。

训练上也有很大不同。以 DeepSeek-R1 为例,它在 base 模型基础上做了强化学习训练,用的是 GRPO 算法,不需要单独训练 Reward Model。训练信号来自数学和代码这类有客观正确答案的任务。有意思的是,CoT 推理行为不是靠人工标注的思维链数据教出来的,而是在 RL 过程中自然涌现的——模型自己发现"分步思考能拿到更高的 reward"。

从效果上说,Reasoning Model 在数学、代码、复杂逻辑推理上提升非常明显,但代价是推理成本高很多,而且在简单任务上会过度思考。所以实际应用中要看场景来选择是否用 Reasoning Model。

它背后还有一个重要概念叫 Test-Time Compute,就是通过增加推理时的计算量来提升效果,这和传统的通过增大模型来提升效果是两条不同的 scaling 路径。

常见追问

  1. GRPO 相比 PPO 有什么区别和优势?为什么 DeepSeek-R1 选择了 GRPO?
  2. Reasoning Model 的"思考过程"涌现是怎么回事?有没有更具体的分析?
  3. 如何在 Reasoning Model 和普通 LLM 之间做路由,让简单问题用快模型、难问题用思考模型?