16. 什么是 Reasoning Model（如 o1、DeepSeek-R1）？它和普通 LLM 有什么区别？

整理 Reasoning Model 的定义、训练方式与普通 LLM 的区别。

简单回答

Reasoning Model 是指在推理阶段会进行显式的长链思考（chain-of-thought）的模型，如 OpenAI 的 o1 和 DeepSeek-R1。和普通 LLM 的核心区别在于：普通 LLM 一步直接给答案，Reasoning Model 会先生成大量的"思考过程"（thinking tokens），通过试错、反思、验证来逐步推理出答案。它的训练通常依赖强化学习（如 GRPO），让模型学会"思考得更好"。

详细解释

核心区别：System 1 vs System 2

用 Kahneman 的理论来类比：普通 LLM 像 System 1，快速直觉式响应；Reasoning Model 像 System 2，慢速但深入的分析推理。

具体表现上，普通 LLM 收到问题后直接开始生成回答。Reasoning Model 则会先生成一段（有时很长的）"思维链"，在这个过程中可能会尝试多条路径、发现错误后自我纠正、做验证等。最终只把结论呈现给用户，中间的思考过程可以选择展示或隐藏。

训练方法的区别

普通 LLM 的训练路径：预训练 → SFT → RLHF/DPO。Reasoning Model 在此基础上，通常还有一个专门的 RL 阶段，用来训练模型的"思考能力"。

DeepSeek-R1 的方案特别值得了解。它的技术路线大致是：先用 DeepSeek-V3 作为 base 模型；然后在 RL 阶段（使用 GRPO，不需要单独训练 Reward Model），用数学和代码这类有明确正确答案的任务作为训练信号；模型在 RL 过程中自然涌现出了 CoT 推理行为——这一点非常关键，不是人工标注 CoT 数据教出来的，而是 RL 的 reward 信号引导模型自己学会了分步思考。

Test-Time Compute 的概念

Reasoning Model 的一个重要特性是：可以通过增加推理时的计算量（生成更多 thinking tokens）来提升效果。这和传统的 scaling（增大模型）不同，是一种"推理时扩展"。思考越久，答案质量越高，但计算成本也越高。

局限性

Reasoning Model 在数学、代码、逻辑推理上表现显著优于普通 LLM，但在简单任务上会"过度思考"，浪费 token 和时间。对于创意写作、日常对话等任务，Reasoning Model 的优势不明显甚至可能更差。它的推理成本也明显更高。

面试时可以这样答

Reasoning Model 最核心的区别是它在推理阶段会进行显式的长链思考。普通 LLM 收到问题直接生成答案，Reasoning Model 会先产生大量的 thinking tokens，在这个过程中做多路尝试、自我验证、纠错，最后才给出结论。
训练上也有很大不同。以 DeepSeek-R1 为例，它在 base 模型基础上做了强化学习训练，用的是 GRPO 算法，不需要单独训练 Reward Model。训练信号来自数学和代码这类有客观正确答案的任务。有意思的是，CoT 推理行为不是靠人工标注的思维链数据教出来的，而是在 RL 过程中自然涌现的——模型自己发现"分步思考能拿到更高的 reward"。
从效果上说，Reasoning Model 在数学、代码、复杂逻辑推理上提升非常明显，但代价是推理成本高很多，而且在简单任务上会过度思考。所以实际应用中要看场景来选择是否用 Reasoning Model。
它背后还有一个重要概念叫 Test-Time Compute，就是通过增加推理时的计算量来提升效果，这和传统的通过增大模型来提升效果是两条不同的 scaling 路径。

常见追问

GRPO 相比 PPO 有什么区别和优势？为什么 DeepSeek-R1 选择了 GRPO？
Reasoning Model 的"思考过程"涌现是怎么回事？有没有更具体的分析？
如何在 Reasoning Model 和普通 LLM 之间做路由，让简单问题用快模型、难问题用思考模型？

15. GPT、LLaMA、Qwen、DeepSeek 等主流模型在架构上有哪些关键差异？

17. Test-Time Compute / 推理时扩展是什么概念？为什么受到关注？