跳到主要内容

Scaling Law

Scaling Law(规模法则)描述了大语言模型的性能与参数量、训练数据量、计算量之间的定量关系。这一系列研究从理论上解释了为什么"大力出奇迹",并为计算资源的最优分配提供了科学指导。

Kaplan Scaling Law(2020)

2020 年,OpenAI 的 Kaplan 等人发表论文《Scaling Laws for Neural Language Models》,首次系统化地研究了 LLM 的规模法则。

核心发现

语言模型的测试损失(Test Loss)与三个核心变量之间存在幂律(Power Law)关系:

L(N) ≈ (N_c / N)^α_N    # 损失随参数量 N 的幂律下降
L(D) ≈ (D_c / D)^α_D # 损失随数据量 D 的幂律下降
L(C) ≈ (C_c / C)^α_C # 损失随计算量 C 的幂律下降

其中 $\alpha_N \approx 0.076$,$\alpha_D \approx 0.095$,$\alpha_C \approx 0.050$。

关键结论

  • 参数量的边际收益递减:每次参数量翻倍,损失降低约 5%(固定数据量下)
  • 数据量和参数量可以互补:在固定计算预算下,增大模型或增加数据都能降低损失
  • 计算最优分配:Kaplan 认为在固定计算预算下,应优先增大模型参数量,数据量无需等比例增加

这一结论直接推动了 GPT-3(175B 参数,仅 300B Token)等超大模型的训练策略。

Chinchilla Law(2022,DeepMind)

2022 年,DeepMind 的 Hoffmann 等人发表《Training Compute-Optimal Large Language Models》,对 Kaplan 的结论提出了重要修正。

核心修正

Chinchilla 的研究方法更为严格:在不同计算预算下,系统性地训练了 400 多个不同规模的模型,精确拟合损失曲线。

Chinchilla 最优分配定律

N_optimal ≈ C^0.5 / (a × b)^0.5
D_optimal ≈ C^0.5 × (b / a)^0.5

简化结论:参数量(N)和训练 Token 数(D)应该等比例扩展,最优比例约为:

D_optimal ≈ 20 × N

即训练 70B 参数的模型,最优训练数据量约为 1.4 万亿 Token。

与 Kaplan 的对比

维度Kaplan(2020)Chinchilla(2022)
最优策略固定计算下优先加大参数量参数量与数据量等比扩展
GPT-3 评价训练策略合理参数过多、数据严重不足
代表性验证-Chinchilla 70B 优于 Gopher 280B

Chinchilla(70B 参数,1.4T Token)在多个基准上超越了参数量是其 4 倍的 Gopher(280B),以更少的计算量取得了更好的性能,有力验证了"数据不足"是之前大模型的主要短板。

参数量、数据量、计算量的三角关系

三者之间通过**总计算量 C(FLOPs)**相互约束:

C ≈ 6 × N × D
  • N:模型参数量(Parameter Count)
  • D:训练 Token 数(Token Count)
  • 6:前向传播约 2N FLOPs,反向传播约 4N FLOPs

这意味着固定计算预算后,N 和 D 之间存在互换关系。

实际案例对比:

模型参数量(N)训练 Token(D)是否 Chinchilla 最优
GPT-3175B300B否(数据不足)
Chinchilla70B1.4T
LLaMA 1 (65B)65B1.4T接近最优
LLaMA 3 (8B)8B15T超过最优(过训练)

LLaMA 3 刻意使用远超 Chinchilla 最优的数据量("过训练",Overtrained),原因是推理效率优先:相同推理性能下,小模型推理成本更低,因此值得用更多训练数据换取更小的模型。

最优计算预算分配

在实际工程中,"最优"不仅取决于训练成本,还取决于推理成本。两种典型视角:

训练计算最优(Chinchilla 视角)

  • 目标:固定训练 FLOPs,最大化模型在基准上的性能
  • 策略:N 和 D 等比扩展,每参数约 20 Token

推理效率最优(工程实践视角)

  • 目标:在可接受的推理延迟和成本下,达到目标性能
  • 策略:训练更小但"过训练"的模型(如 LLaMA 3 8B 用 15T Token)
  • 推理时小模型的吞吐量(Tokens/s)更高,单次调用成本更低

涌现能力(Emergent Abilities)现象

Wei 等人(2022)在《Emergent Abilities of Large Language Models》中记录了一类特殊现象:某些能力在模型规模超过特定阈值后,从"接近随机"突然跃升至"相当可用",而非随规模平滑提升。

典型涌现能力案例

  • 算术推理:小于 10B 参数的模型几乎无法完成多步算术,超过 50B 后急剧提升
  • 思维链(Chain-of-Thought):只在足够大的模型上有效,小模型逐步推理后准确率反而降低
  • 多语言翻译:在训练数据中几乎没有某语言配对翻译数据的情况下,大模型仍能自发具备翻译能力
  • 指令遵循:复杂多步指令的遵循能力有明显的规模阈值

涌现能力的争议

部分研究者认为涌现是"测量幻觉"——如果将评测指标从准确率改为更连续的概率指标,涌现现象会消失,变为平滑的幂律增长曲线。

目前学界尚未形成共识,但涌现现象的实际存在(无论机制如何)已被工程实践反复证实。

规模与能力的非线性跃升

Scaling Law 描述的是损失的平滑幂律下降,但能力的提升并不总是线性的:

  • 某些评测任务存在"相变点"(Phase Transition)——超过某规模后任务可解率突增
  • 推理密集型任务(数学、代码、逻辑)对规模更敏感,存在更陡峭的相变
  • 知识密集型任务(事实问答)对数据量更敏感,规模提升带来平稳的知识增加

Scaling 的极限争论

随着训练 Token 数接近互联网文本总量,以及模型规模的计算成本指数级上升,业界对 Scaling 是否接近极限展开讨论:

  • 悲观派:互联网数据总量约 100T Token,高质量数据更少;算力增长受限于硬件;简单 Scaling 已接近收益递减
  • 乐观派:合成数据(Synthetic Data)可突破数据瓶颈;架构创新(MoE、状态空间模型)可提升参数效率;推理时 Scaling(Test-Time Compute)是新维度

当前行业对 Scaling 的投入

2024-2025 年,主流 AI 公司继续加大 Scaling 投入:

  • OpenAI GPT-4 训练成本估计超过 1 亿美元
  • 微软、Google、Meta、xAI 分别宣布数百亿美元数据中心投资
  • 训练集群规模从数千 GPU 扩展至十万甚至百万 GPU
  • Test-Time Scaling(推理时计算扩展)成为新研究热点:OpenAI o1/o3 通过延长推理时的思维链,用计算换准确率,代表 Scaling 从"训练时"向"推理时"延伸的新方向