跳到主要内容

Scaling Law

问题

什么是 Scaling Law?Chinchilla 定律说了什么?模型越大一定越好吗?

答案

Scaling Law(规模定律) 描述了 LLM 性能如何随参数量、数据量、计算量增长而提升——这是指导 LLM 训练决策的核心理论。

一、Kaplan Scaling Law(2020, OpenAI)

OpenAI 最早发现 LLM 的 Loss 与三个因素呈幂律关系

L(N)N0.076,L(D)D0.095,L(C)C0.050L(N) \propto N^{-0.076}, \quad L(D) \propto D^{-0.095}, \quad L(C) \propto C^{-0.050}
  • NN:参数量
  • DD:数据量(Token 数)
  • CC:计算量(FLOPs)
关键发现
  1. 增加参数、数据、算力都能降低 Loss,但收益递减
  2. 三者存在最优配比——不是越大越好
  3. 模型架构(层数 vs 宽度)的影响远小于规模

二、Chinchilla 定律(2022, DeepMind)

Chinchilla 论文修正了 Kaplan 的结论,发现之前的模型严重欠训练(参数量太大,数据太少)。

核心结论

在固定计算预算下,参数量和数据量应该等比例增长:

NoptC0.50,DoptC0.50N^{opt} \propto C^{0.50}, \quad D^{opt} \propto C^{0.50}

经验公式:最优训练 Token 数 ≈ 参数量的 20 倍

模型参数量实际训练 Token 数Chinchilla 最优状态
GPT-3175B300B3.5T❌ 严重欠训练
Chinchilla70B1.4T1.4T✅ 最优
LLaMA 165B1.4T1.3T✅ 接近最优
LLaMA 270B2T1.4T过训练(推理优化)
LLaMA 38B15T160B极度过训练
过训练趋势

Meta、Mistral 等发现:如果目标是部署一个推理高效的小模型,"过训练"(用远超 Chinchilla 最优的数据训练小模型)反而有用——模型部署后每次推理的成本更低,即使训练成本更高。LLaMA 3-8B 用了 15T Token(Chinchilla 建议仅 160B),性能远超同级。

三、Scaling Law 的实际意义

1. 训练前预测性能

可以用小模型的 Loss 曲线外推大模型的性能——避免盲目训练大模型浪费算力。

2. 算力分配决策

给定 $X 算力预算,如何分配:

  • Kaplan:优先增大模型(参数多,数据少)
  • Chinchilla:均衡增长(参数和数据等比例)
  • 实际趋势:过训练小模型(追求推理效率)

3. 成本估算

LLM 训练成本约:

Cost6NDGPU FLOPs×GPU 利用率×GPU 单价/秒\text{Cost} \approx \frac{6ND}{\text{GPU FLOPs} \times \text{GPU 利用率}} \times \text{GPU 单价/秒}

其中 6ND6ND 是训练一轮的总 FLOPs 估算(前向 2ND + 反向 4ND)。

四、Scaling Law 的局限

局限说明
只预测 Loss,不预测涌现Scaling Law 预测的是平滑的 Loss 下降,无法预测突然出现的能力
数据质量未纳入高质量数据 1T ≫ 低质量数据 10T
架构差异MoE 架构不完全遵循稠密模型的 Scaling Law
推理成本未考虑Chinchilla 只优化训练,不考虑部署后的推理成本

五、后 Chinchilla 时代

方向趋势
数据效率数据越来越稀缺,合成数据、数据质量筛选成为重点
过训练小模型LLaMA 3、Mistral 用大量数据训练小模型
MoE 架构Mixtral、DeepSeek V2/V3 用 MoE 降低推理成本
推理时 Scalingo1、R1 通过推理时多花计算提升能力

常见面试问题

Q1: 什么是 Chinchilla 定律?

答案: Chinchilla 定律指出:在固定计算预算下,模型参数量和训练数据量应该等比例增长。经验法则是训练 Token 数约为参数量的 20 倍。这纠正了之前"只增大参数"的做法——GPT-3(175B 参数,300B Token)严重欠训练,而 Chinchilla(70B 参数,1.4T Token)用更少参数达到了更好的性能。

Q2: 为什么 LLaMA 3 要"过训练"?

答案: Chinchilla 优化的是训练成本——固定算力下最低 Loss。但实际部署中,推理成本远高于训练成本(训练一次,推理百万次)。LLaMA 3-8B 用 15T Token 过训练,虽然训练贵了,但部署时只需要推理一个 8B 模型,比用 70B 模型便宜得多。这是"训练多花钱,推理省大钱"的策略。

Q3: Scaling Law 能预测 GPT-5 的能力吗?

答案: Scaling Law 能预测 Loss 的下降趋势(非常准确),但无法预测具体任务的涌现能力。例如,CoT(思维链)推理能力在 ~100B 参数时突然涌现——Scaling Law 的平滑曲线无法捕捉这种相变。

Q4: Scaling Law 和 MoE 的关系?

答案: MoE(Mixture of Experts)模型有大量参数但每个 Token 只激活部分(如 DeepSeek V3 有 671B 总参数但每 Token 只用 37B 激活参数)。MoE 的 Scaling Law 不同于稠密模型——它的有效计算量取决于激活参数而非总参数。这使得 MoE 在推理成本上更优(大总参数 = 大容量,小激活参数 = 低推理成本)。


相关链接