13. Scaling Law 是什么?它对模型训练有什么指导意义?
整理 Scaling Law 的核心结论及其训练指导意义。
简单回答
Scaling Law 是指模型的 loss 与模型参数量(N)、训练数据量(D)和计算量(C)之间存在稳定的幂律关系:增大任何一个因素,loss 都会按可预测的规律下降。它的指导意义在于:可以用小规模实验预测大规模训练的效果,帮助在给定算力预算下选择最优的模型大小和数据量配比。
详细解释
Kaplan Scaling Law(OpenAI, 2020)
OpenAI 最早系统研究了 scaling law,发现 loss 与 N、D、C 各自呈幂律关系:
关键结论是:模型越大,数据越多,算力越大,loss 越低,而且这个下降是平滑可预测的,不会有突然的拐点。Kaplan 的建议偏向"大模型、少数据",即在固定算力下优先做大模型。
Chinchilla Scaling Law(DeepMind, 2022)
Chinchilla 的研究修正了 Kaplan 的结论。他们发现之前的大模型普遍是 undertrained 的——模型参数量很大但数据量不够。Chinchilla 提出的最优配比大约是:每增加一倍参数,数据也应该增加一倍。具体来说,最优的 token 数大约是参数量的 20 倍。这直接影响了后续模型的训练策略,比如 LLaMA 70B 用了 1.4T token 训练。
实际指导意义
第一,预测和规划。在正式训练前,可以先跑一组小模型实验(比如 100M、300M、1B),拟合 scaling curve,然后外推到目标规模的预期性能。这对于需要几百万美金算力的大模型训练来说,极其重要——不能训完才发现效果不行。
第二,资源分配。给定算力预算,应该训多大的模型、用多少数据?Chinchilla 的结论给出了明确指导。但实际中很多团队会选择"过训练"小模型(用远超 Chinchilla 最优比例的数据训练较小的模型),因为推理成本与模型大小正相关,部署一个训练充分的小模型比一个欠训的大模型更划算。LLaMA 就是这个思路。
第三,涌现能力的预期。Scaling Law 描述的是连续的 loss 下降,但某些能力(如 CoT 推理)似乎是在模型达到一定规模后"突然涌现"的。不过后续研究(如 Are Emergent Abilities a Mirage?)指出,这种涌现可能部分是评测指标选择导致的假象。
局限性
Scaling Law 预测的是 loss,不是具体任务的表现。Loss 降低不一定线性映射到下游任务的提升。另外,数据质量在 Scaling Law 里通常被假设为恒定的,但实际中数据质量的影响可能比数量更大。
面试时可以这样答
Scaling Law 说的是,模型 loss 和参数量、数据量、计算量之间存在幂律关系,而且这个关系非常稳定、可预测。它对工程实践最大的价值是:可以用小规模实验预测大规模训练的效果,帮助在有限预算下做最优决策。
这个领域有两个里程碑式的工作。2020 年 OpenAI 的 Kaplan Scaling Law 首次系统建立了这个关系,但它的结论偏向"优先做大模型"。2022 年 DeepMind 的 Chinchilla 修正了这个结论,发现之前的大模型普遍训练不充分,最优配比大约是模型参数量的 20 倍 token 数。这直接影响了后来 LLaMA 等模型的训练策略。
但实际中很多团队不会严格按照 Chinchilla 最优来,而是选择"过训练"小模型。原因很实际——推理成本和模型大小正相关,训练充分的小模型在部署上更划算。LLaMA 就是这个思路,用远超 Chinchilla 最优比例的数据去训相对小的模型。
需要注意的是,Scaling Law 预测的是 loss,不是具体任务的表现。loss 降低 0.1 不代表某个具体 benchmark 一定涨几个点。而且它默认数据质量恒定,但实际中数据质量的影响可能比单纯的量更关键。
常见追问
- 如果让你给一个 100B 模型做训练规划,你会怎么用 Scaling Law?具体跑哪些实验?
- 涌现能力和 Scaling Law 之间是什么关系?涌现能力到底存不存在?
- 为什么说 LLaMA 是"违反" Chinchilla 最优配比的?这种做法的动机是什么?