Scaling Law

问题

什么是 Scaling Law？Chinchilla 定律说了什么？模型越大一定越好吗？

答案

Scaling Law（规模定律） 描述了 LLM 性能如何随参数量、数据量、计算量增长而提升——这是指导 LLM 训练决策的核心理论。

一、Kaplan Scaling Law（2020, OpenAI）

OpenAI 最早发现 LLM 的 Loss 与三个因素呈幂律关系：

L(N) \propto N^{-0.076}, \quad L(D) \propto D^{-0.095}, \quad L(C) \propto C^{-0.050}

$N$ ：参数量
$D$ ：数据量（Token 数）
$C$ ：计算量（FLOPs）

关键发现

增加参数、数据、算力都能降低 Loss，但收益递减
三者存在最优配比——不是越大越好
模型架构（层数 vs 宽度）的影响远小于规模

二、Chinchilla 定律（2022, DeepMind）

Chinchilla 论文修正了 Kaplan 的结论，发现之前的模型严重欠训练（参数量太大，数据太少）。

核心结论

在固定计算预算下，参数量和数据量应该等比例增长：

N^{opt} \propto C^{0.50}, \quad D^{opt} \propto C^{0.50}

经验公式：最优训练 Token 数 ≈ 参数量的 20 倍。

模型	参数量	实际训练 Token 数	Chinchilla 最优	状态
GPT-3	175B	300B	3.5T	❌ 严重欠训练
Chinchilla	70B	1.4T	1.4T	✅ 最优
LLaMA 1	65B	1.4T	1.3T	✅ 接近最优
LLaMA 2	70B	2T	1.4T	过训练（推理优化）
LLaMA 3	8B	15T	160B	极度过训练

过训练趋势

Meta、Mistral 等发现：如果目标是部署一个推理高效的小模型，"过训练"（用远超 Chinchilla 最优的数据训练小模型）反而有用——模型部署后每次推理的成本更低，即使训练成本更高。LLaMA 3-8B 用了 15T Token（Chinchilla 建议仅 160B），性能远超同级。

三、Scaling Law 的实际意义

1. 训练前预测性能

可以用小模型的 Loss 曲线外推大模型的性能——避免盲目训练大模型浪费算力。

2. 算力分配决策

给定 $X 算力预算，如何分配：

Kaplan：优先增大模型（参数多，数据少）
Chinchilla：均衡增长（参数和数据等比例）
实际趋势：过训练小模型（追求推理效率）

3. 成本估算

LLM 训练成本约：

\text{Cost} \approx \frac{6ND}{\text{GPU FLOPs} \times \text{GPU 利用率}} \times \text{GPU 单价/秒}

其中 $6ND$ 是训练一轮的总 FLOPs 估算（前向 2ND + 反向 4ND）。

四、Scaling Law 的局限

局限	说明
只预测 Loss，不预测涌现	Scaling Law 预测的是平滑的 Loss 下降，无法预测突然出现的能力
数据质量未纳入	高质量数据 1T ≫ 低质量数据 10T
架构差异	MoE 架构不完全遵循稠密模型的 Scaling Law
推理成本未考虑	Chinchilla 只优化训练，不考虑部署后的推理成本

五、后 Chinchilla 时代

方向	趋势
数据效率	数据越来越稀缺，合成数据、数据质量筛选成为重点
过训练小模型	LLaMA 3、Mistral 用大量数据训练小模型
MoE 架构	Mixtral、DeepSeek V2/V3 用 MoE 降低推理成本
推理时 Scaling	o1、R1 通过推理时多花计算提升能力

常见面试问题

Q1: 什么是 Chinchilla 定律？

答案： Chinchilla 定律指出：在固定计算预算下，模型参数量和训练数据量应该等比例增长。经验法则是训练 Token 数约为参数量的 20 倍。这纠正了之前"只增大参数"的做法——GPT-3（175B 参数，300B Token）严重欠训练，而 Chinchilla（70B 参数，1.4T Token）用更少参数达到了更好的性能。

Q2: 为什么 LLaMA 3 要"过训练"？

答案： Chinchilla 优化的是训练成本——固定算力下最低 Loss。但实际部署中，推理成本远高于训练成本（训练一次，推理百万次）。LLaMA 3-8B 用 15T Token 过训练，虽然训练贵了，但部署时只需要推理一个 8B 模型，比用 70B 模型便宜得多。这是"训练多花钱，推理省大钱"的策略。

Q3: Scaling Law 能预测 GPT-5 的能力吗？

答案： Scaling Law 能预测 Loss 的下降趋势（非常准确），但无法预测具体任务的涌现能力。例如，CoT（思维链）推理能力在 ~100B 参数时突然涌现——Scaling Law 的平滑曲线无法捕捉这种相变。

Q4: Scaling Law 和 MoE 的关系？

答案： MoE（Mixture of Experts）模型有大量参数但每个 Token 只激活部分（如 DeepSeek V3 有 671B 总参数但每 Token 只用 37B 激活参数）。MoE 的 Scaling Law 不同于稠密模型——它的有效计算量取决于激活参数而非总参数。这使得 MoE 在推理成本上更优（大总参数 = 大容量，小激活参数 = 低推理成本）。

问题​

答案​

一、Kaplan Scaling Law（2020, OpenAI）​

二、Chinchilla 定律（2022, DeepMind）​

核心结论​

三、Scaling Law 的实际意义​

1. 训练前预测性能​

2. 算力分配决策​

3. 成本估算​

四、Scaling Law 的局限​

五、后 Chinchilla 时代​

常见面试问题​

Q1: 什么是 Chinchilla 定律？​

Q2: 为什么 LLaMA 3 要"过训练"？​

Q3: Scaling Law 能预测 GPT-5 的能力吗？​

Q4: Scaling Law 和 MoE 的关系？​

相关链接​

问题

答案