13. Scaling Law 是什么？它对模型训练有什么指导意义？

整理 Scaling Law 的核心结论及其训练指导意义。

简单回答

Scaling Law 是指模型的 loss 与模型参数量（N）、训练数据量（D）和计算量（C）之间存在稳定的幂律关系：增大任何一个因素，loss 都会按可预测的规律下降。它的指导意义在于：可以用小规模实验预测大规模训练的效果，帮助在给定算力预算下选择最优的模型大小和数据量配比。

详细解释

Kaplan Scaling Law（OpenAI, 2020）

OpenAI 最早系统研究了 scaling law，发现 loss 与 N、D、C 各自呈幂律关系：

L (N) \propto N^{- α}, L (D) \propto D^{- β}, L (C) \propto C^{- γ}

关键结论是：模型越大，数据越多，算力越大，loss 越低，而且这个下降是平滑可预测的，不会有突然的拐点。Kaplan 的建议偏向"大模型、少数据"，即在固定算力下优先做大模型。

Chinchilla Scaling Law（DeepMind, 2022）

Chinchilla 的研究修正了 Kaplan 的结论。他们发现之前的大模型普遍是 undertrained 的——模型参数量很大但数据量不够。Chinchilla 提出的最优配比大约是：每增加一倍参数，数据也应该增加一倍。具体来说，最优的 token 数大约是参数量的 20 倍。这直接影响了后续模型的训练策略，比如 LLaMA 70B 用了 1.4T token 训练。

实际指导意义

第一，预测和规划。在正式训练前，可以先跑一组小模型实验（比如 100M、300M、1B），拟合 scaling curve，然后外推到目标规模的预期性能。这对于需要几百万美金算力的大模型训练来说，极其重要——不能训完才发现效果不行。

第二，资源分配。给定算力预算，应该训多大的模型、用多少数据？Chinchilla 的结论给出了明确指导。但实际中很多团队会选择"过训练"小模型（用远超 Chinchilla 最优比例的数据训练较小的模型），因为推理成本与模型大小正相关，部署一个训练充分的小模型比一个欠训的大模型更划算。LLaMA 就是这个思路。

第三，涌现能力的预期。Scaling Law 描述的是连续的 loss 下降，但某些能力（如 CoT 推理）似乎是在模型达到一定规模后"突然涌现"的。不过后续研究（如 Are Emergent Abilities a Mirage?）指出，这种涌现可能部分是评测指标选择导致的假象。

局限性

Scaling Law 预测的是 loss，不是具体任务的表现。Loss 降低不一定线性映射到下游任务的提升。另外，数据质量在 Scaling Law 里通常被假设为恒定的，但实际中数据质量的影响可能比数量更大。

面试时可以这样答

Scaling Law 说的是，模型 loss 和参数量、数据量、计算量之间存在幂律关系，而且这个关系非常稳定、可预测。它对工程实践最大的价值是：可以用小规模实验预测大规模训练的效果，帮助在有限预算下做最优决策。
这个领域有两个里程碑式的工作。2020 年 OpenAI 的 Kaplan Scaling Law 首次系统建立了这个关系，但它的结论偏向"优先做大模型"。2022 年 DeepMind 的 Chinchilla 修正了这个结论，发现之前的大模型普遍训练不充分，最优配比大约是模型参数量的 20 倍 token 数。这直接影响了后来 LLaMA 等模型的训练策略。
但实际中很多团队不会严格按照 Chinchilla 最优来，而是选择"过训练"小模型。原因很实际——推理成本和模型大小正相关，训练充分的小模型在部署上更划算。LLaMA 就是这个思路，用远超 Chinchilla 最优比例的数据去训相对小的模型。
需要注意的是，Scaling Law 预测的是 loss，不是具体任务的表现。loss 降低 0.1 不代表某个具体 benchmark 一定涨几个点。而且它默认数据质量恒定，但实际中数据质量的影响可能比单纯的量更关键。

常见追问

如果让你给一个 100B 模型做训练规划，你会怎么用 Scaling Law？具体跑哪些实验？
涌现能力和 Scaling Law 之间是什么关系？涌现能力到底存不存在？
为什么说 LLaMA 是"违反" Chinchilla 最优配比的？这种做法的动机是什么？

12. 长上下文能力通常受哪些因素影响？

14. FlashAttention 的核心思路是什么？它为什么能同时节省显存和加速？