Scaling Law
Scaling Law(规模法则)描述了大语言模型的性能与参数量、训练数据量、计算量之间的定量关系。这一系列研究从理论上解释了为什么"大力出奇迹",并为计算资源的最优分配提供了科学指导。
Kaplan Scaling Law(2020)
2020 年,OpenAI 的 Kaplan 等人发表论文《Scaling Laws for Neural Language Models》,首次系统化地研究了 LLM 的规模法则。
核心发现
语言模型的测试损失(Test Loss)与三个核心变量之间存在幂律(Power Law)关系:
L(N) ≈ (N_c / N)^α_N # 损失随参数量 N 的幂律下降
L(D) ≈ (D_c / D)^α_D # 损失随数据量 D 的幂律下降
L(C) ≈ (C_c / C)^α_C # 损失随计算量 C 的幂律下降
其中 $\alpha_N \approx 0.076$,$\alpha_D \approx 0.095$,$\alpha_C \approx 0.050$。
关键结论
- 参数量的边际收益递减:每次参数量翻倍,损失降低约 5%(固定数据量下)
- 数据量和参数量可以互补:在固定计算预算下,增大模型或增加数据都能降低损失
- 计算最优分配:Kaplan 认为在固定计算预算下,应优先增大模型参数量,数据量无需等比例增加
这一结论直接推动了 GPT-3(175B 参数,仅 300B Token)等超大模型的训练策略。
Chinchilla Law(2022,DeepMind)
2022 年,DeepMind 的 Hoffmann 等人发表《Training Compute-Optimal Large Language Models》,对 Kaplan 的结论提出了重要修正。
核心修正
Chinchilla 的研究方法更为严格:在不同计算预算下,系统性地训练了 400 多个不同规模的模型,精确拟合损失曲线。
Chinchilla 最优分配定律:
N_optimal ≈ C^0.5 / (a × b)^0.5
D_optimal ≈ C^0.5 × (b / a)^0.5
简化结论:参数量(N)和训练 Token 数(D)应该等比例扩展,最优比例约为:
D_optimal ≈ 20 × N
即训练 70B 参数的模型,最优训练数据量约为 1.4 万亿 Token。
与 Kaplan 的对比
| 维度 | Kaplan(2020) | Chinchilla(2022) |
|---|---|---|
| 最优策略 | 固定计算下优先加大参数量 | 参数量与数据量等比扩展 |
| GPT-3 评价 | 训练策略合理 | 参数过多、数据严重不足 |
| 代表性验证 | - | Chinchilla 70B 优于 Gopher 280B |
Chinchilla(70B 参数,1.4T Token)在多个基准上超越了参数量是其 4 倍的 Gopher(280B),以更少的计算量取得了更好的性能,有力验证了"数据不足"是之前大模型的主要短板。
参数量、数据量、计算量的三角关系
三者之间通过**总计算量 C(FLOPs)**相互约束:
C ≈ 6 × N × D
- N:模型参数量(Parameter Count)
- D:训练 Token 数(Token Count)
- 6:前向传播约 2N FLOPs,反向传播约 4N FLOPs
这意味着固定计算预算后,N 和 D 之间存在互换关系。
实际案例对比:
| 模型 | 参数量(N) | 训练 Token(D) | 是否 Chinchilla 最优 |
|---|---|---|---|
| GPT-3 | 175B | 300B | 否(数据不足) |
| Chinchilla | 70B | 1.4T | 是 |
| LLaMA 1 (65B) | 65B | 1.4T | 接近最优 |
| LLaMA 3 (8B) | 8B | 15T | 超过最优(过训练) |
LLaMA 3 刻意使用远超 Chinchilla 最优的数据量("过训练",Overtrained),原因是推理效率优先:相同推理性能下,小模型推理成本更低,因此值得用更多训练数据换取更小的模型。
最优计算预算分配
在实际工程中,"最优"不仅取决于训练成本,还取决于推理成本。两种典型视角:
训练计算最优(Chinchilla 视角)
- 目标:固定训练 FLOPs,最大化模型在基准上的性能
- 策略:N 和 D 等比扩展,每参数约 20 Token
推理效率最优(工程实践视角)
- 目标:在可接受的推理延迟和成本下,达到目标性能
- 策略:训练更小但"过训练"的模型(如 LLaMA 3 8B 用 15T Token)
- 推理时小模型的吞吐量(Tokens/s)更高,单次调用成本更低
涌现能力(Emergent Abilities)现象
Wei 等人(2022)在《Emergent Abilities of Large Language Models》中记录了一类特殊现象:某些能力在模型规模超过特定阈值后,从"接近随机"突然跃升至"相当可用",而非随规模平滑提升。
典型涌现能力案例
- 算术推理:小于 10B 参数的模型几乎无法完成多步算术,超过 50B 后急剧提升
- 思维链(Chain-of-Thought):只在足够大的模型上有效,小模型逐步推理后准确率反而降低
- 多语言翻译:在训练数据中几乎没有某语言配对翻译数据的情况下,大模型仍能自发具备翻译能力
- 指令遵循:复杂多步指令的遵循能力有明显的规模阈值
涌现能力的争议
部分研究者认为涌现是"测量幻觉"——如果将评测指标从准确率改为更连续的概率指标,涌现现象会消失,变为平滑的幂律增长曲线。
目前学界尚未形成共识,但涌现现象的实际存在(无论机制如何)已被工程实践反复证实。
规模与能力的非线性跃升
Scaling Law 描述的是损失的平滑幂律下降,但能力的提升并不总是线性的:
- 某些评测任务存在"相变点"(Phase Transition)——超过某规模后任务可解率突增
- 推理密集型任务(数学、代码、逻辑)对规模更敏感,存在更陡峭的相变
- 知识密集型任务(事实问答)对数据量更敏感,规模提升带来平稳的知识增加
Scaling 的极限争论
随着训练 Token 数接近互联网文本总量,以及模型规模的计算成本指数级上升,业界对 Scaling 是否接近极限展开讨论:
- 悲观派:互联网数据总量约 100T Token,高质量数据更少;算力增长受限于硬件;简单 Scaling 已接近收益递减
- 乐观派:合成数据(Synthetic Data)可突破数据瓶颈;架构创新(MoE、状态空间模型)可提升参数效率;推理时 Scaling(Test-Time Compute)是新维度
当前行业对 Scaling 的投入
2024-2025 年,主流 AI 公司继续加大 Scaling 投入:
- OpenAI GPT-4 训练成本估计超过 1 亿美元
- 微软、Google、Meta、xAI 分别宣布数百亿美元数据中心投资
- 训练集群规模从数千 GPU 扩展至十万甚至百万 GPU
- Test-Time Scaling(推理时计算扩展)成为新研究热点:OpenAI o1/o3 通过延长推理时的思维链,用计算换准确率,代表 Scaling 从"训练时"向"推理时"延伸的新方向