Scaling Law
问题
什么是 Scaling Law?Chinchilla 定律说了什么?模型越大一定越好吗?
答案
Scaling Law(规模定律) 描述了 LLM 性能如何随参数量、数据量、计算量增长而提升——这是指导 LLM 训练决策的核心理论。
一、Kaplan Scaling Law(2020, OpenAI)
OpenAI 最早发现 LLM 的 Loss 与三个因素呈幂律关系:
- :参数量
- :数据量(Token 数)
- :计算量(FLOPs)
- 增加参数、数据、算力都能降低 Loss,但收益递减
- 三者存在最优配比——不是越大越好
- 模型架构(层数 vs 宽度)的影响远小于规模
二、Chinchilla 定律(2022, DeepMind)
Chinchilla 论文修正了 Kaplan 的结论,发现之前的模型严重欠训练(参数量太大,数据太少)。
核心结论
在固定计算预算下,参数量和数据量应该等比例增长:
经验公式:最优训练 Token 数 ≈ 参数量的 20 倍。
| 模型 | 参数量 | 实际训练 Token 数 | Chinchilla 最优 | 状态 |
|---|---|---|---|---|
| GPT-3 | 175B | 300B | 3.5T | ❌ 严重欠训练 |
| Chinchilla | 70B | 1.4T | 1.4T | ✅ 最优 |
| LLaMA 1 | 65B | 1.4T | 1.3T | ✅ 接近最优 |
| LLaMA 2 | 70B | 2T | 1.4T | 过训练(推理优化) |
| LLaMA 3 | 8B | 15T | 160B | 极度过训练 |
Meta、Mistral 等发现:如果目标是部署一个推理高效的小模型,"过训练"(用远超 Chinchilla 最优的数据训练小模型)反而有用——模型部署后每次推理的成本更低,即使训练成本更高。LLaMA 3-8B 用了 15T Token(Chinchilla 建议仅 160B),性能远超同级。
三、Scaling Law 的实际意义
1. 训练前预测性能
可以用小模型的 Loss 曲线外推大模型的性能——避免盲目训练大模型浪费算力。
2. 算力分配决策
给定 $X 算力预算,如何分配:
- Kaplan:优先增大模型(参数多,数据少)
- Chinchilla:均衡增长(参数和数据等比例)
- 实际趋势:过训练小模型(追求推理效率)
3. 成本估算
LLM 训练成本约:
其中 是训练一轮的总 FLOPs 估算(前向 2ND + 反向 4ND)。
四、Scaling Law 的局限
| 局限 | 说明 |
|---|---|
| 只预测 Loss,不预测涌现 | Scaling Law 预测的是平滑的 Loss 下降,无法预测突然出现的能力 |
| 数据质量未纳入 | 高质量数据 1T ≫ 低质量数据 10T |
| 架构差异 | MoE 架构不完全遵循稠密模型的 Scaling Law |
| 推理成本未考虑 | Chinchilla 只优化训练,不考虑部署后的推理成本 |
五、后 Chinchilla 时代
| 方向 | 趋势 |
|---|---|
| 数据效率 | 数据越来越稀缺,合成数据、数据质量筛选成为重点 |
| 过训练小模型 | LLaMA 3、Mistral 用大量数据训练小模型 |
| MoE 架构 | Mixtral、DeepSeek V2/V3 用 MoE 降低推理成本 |
| 推理时 Scaling | o1、R1 通过推理时多花计算提升能力 |
常见面试问题
Q1: 什么是 Chinchilla 定律?
答案: Chinchilla 定律指出:在固定计算预算下,模型参数量和训练数据量应该等比例增长。经验法则是训练 Token 数约为参数量的 20 倍。这纠正了之前"只增大参数"的做法——GPT-3(175B 参数,300B Token)严重欠训练,而 Chinchilla(70B 参数,1.4T Token)用更少参数达到了更好的性能。
Q2: 为什么 LLaMA 3 要"过训练"?
答案: Chinchilla 优化的是训练成本——固定算力下最低 Loss。但实际部署中,推理成本远高于训练成本(训练一次,推理百万次)。LLaMA 3-8B 用 15T Token 过训练,虽然训练贵了,但部署时只需要推理一个 8B 模型,比用 70B 模型便宜得多。这是"训练多花钱,推理省大钱"的策略。
Q3: Scaling Law 能预测 GPT-5 的能力吗?
答案: Scaling Law 能预测 Loss 的下降趋势(非常准确),但无法预测具体任务的涌现能力。例如,CoT(思维链)推理能力在 ~100B 参数时突然涌现——Scaling Law 的平滑曲线无法捕捉这种相变。
Q4: Scaling Law 和 MoE 的关系?
答案: MoE(Mixture of Experts)模型有大量参数但每个 Token 只激活部分(如 DeepSeek V3 有 671B 总参数但每 Token 只用 37B 激活参数)。MoE 的 Scaling Law 不同于稠密模型——它的有效计算量取决于激活参数而非总参数。这使得 MoE 在推理成本上更优(大总参数 = 大容量,小激活参数 = 低推理成本)。