Scaling Law

Scaling Law（规模法则）描述了大语言模型的性能与参数量、训练数据量、计算量之间的定量关系。这一系列研究从理论上解释了为什么"大力出奇迹"，并为计算资源的最优分配提供了科学指导。

Kaplan Scaling Law（2020）

2020 年，OpenAI 的 Kaplan 等人发表论文《Scaling Laws for Neural Language Models》，首次系统化地研究了 LLM 的规模法则。

核心发现

语言模型的测试损失（Test Loss）与三个核心变量之间存在幂律（Power Law）关系：

L(N) ≈ (N_c / N)^α_N    # 损失随参数量 N 的幂律下降
L(D) ≈ (D_c / D)^α_D    # 损失随数据量 D 的幂律下降
L(C) ≈ (C_c / C)^α_C    # 损失随计算量 C 的幂律下降

其中 $\alpha_N \approx 0.076$，$\alpha_D \approx 0.095$，$\alpha_C \approx 0.050$。

关键结论

参数量的边际收益递减：每次参数量翻倍，损失降低约 5%（固定数据量下）
数据量和参数量可以互补：在固定计算预算下，增大模型或增加数据都能降低损失
计算最优分配：Kaplan 认为在固定计算预算下，应优先增大模型参数量，数据量无需等比例增加

这一结论直接推动了 GPT-3（175B 参数，仅 300B Token）等超大模型的训练策略。

Chinchilla Law（2022，DeepMind）

2022 年，DeepMind 的 Hoffmann 等人发表《Training Compute-Optimal Large Language Models》，对 Kaplan 的结论提出了重要修正。

核心修正

Chinchilla 的研究方法更为严格：在不同计算预算下，系统性地训练了 400 多个不同规模的模型，精确拟合损失曲线。

Chinchilla 最优分配定律：

N_optimal ≈ C^0.5 / (a × b)^0.5
D_optimal ≈ C^0.5 × (b / a)^0.5

简化结论：参数量（N）和训练 Token 数（D）应该等比例扩展，最优比例约为：

D_optimal ≈ 20 × N

即训练 70B 参数的模型，最优训练数据量约为 1.4 万亿 Token。

与 Kaplan 的对比

维度	Kaplan（2020）	Chinchilla（2022）
最优策略	固定计算下优先加大参数量	参数量与数据量等比扩展
GPT-3 评价	训练策略合理	参数过多、数据严重不足
代表性验证	-	Chinchilla 70B 优于 Gopher 280B

Chinchilla（70B 参数，1.4T Token）在多个基准上超越了参数量是其 4 倍的 Gopher（280B），以更少的计算量取得了更好的性能，有力验证了"数据不足"是之前大模型的主要短板。

参数量、数据量、计算量的三角关系

三者之间通过**总计算量 C（FLOPs）**相互约束：

C ≈ 6 × N × D

N：模型参数量（Parameter Count）
D：训练 Token 数（Token Count）
6：前向传播约 2N FLOPs，反向传播约 4N FLOPs

这意味着固定计算预算后，N 和 D 之间存在互换关系。

实际案例对比：

模型	参数量（N）	训练 Token（D）	是否 Chinchilla 最优
GPT-3	175B	300B	否（数据不足）
Chinchilla	70B	1.4T	是
LLaMA 1 (65B)	65B	1.4T	接近最优
LLaMA 3 (8B)	8B	15T	超过最优（过训练）

LLaMA 3 刻意使用远超 Chinchilla 最优的数据量（"过训练"，Overtrained），原因是推理效率优先：相同推理性能下，小模型推理成本更低，因此值得用更多训练数据换取更小的模型。

最优计算预算分配

在实际工程中，"最优"不仅取决于训练成本，还取决于推理成本。两种典型视角：

训练计算最优（Chinchilla 视角）

目标：固定训练 FLOPs，最大化模型在基准上的性能
策略：N 和 D 等比扩展，每参数约 20 Token

推理效率最优（工程实践视角）

目标：在可接受的推理延迟和成本下，达到目标性能
策略：训练更小但"过训练"的模型（如 LLaMA 3 8B 用 15T Token）
推理时小模型的吞吐量（Tokens/s）更高，单次调用成本更低

涌现能力（Emergent Abilities）现象

Wei 等人（2022）在《Emergent Abilities of Large Language Models》中记录了一类特殊现象：某些能力在模型规模超过特定阈值后，从"接近随机"突然跃升至"相当可用"，而非随规模平滑提升。

典型涌现能力案例

算术推理：小于 10B 参数的模型几乎无法完成多步算术，超过 50B 后急剧提升
思维链（Chain-of-Thought）：只在足够大的模型上有效，小模型逐步推理后准确率反而降低
多语言翻译：在训练数据中几乎没有某语言配对翻译数据的情况下，大模型仍能自发具备翻译能力
指令遵循：复杂多步指令的遵循能力有明显的规模阈值

涌现能力的争议

部分研究者认为涌现是"测量幻觉"——如果将评测指标从准确率改为更连续的概率指标，涌现现象会消失，变为平滑的幂律增长曲线。

目前学界尚未形成共识，但涌现现象的实际存在（无论机制如何）已被工程实践反复证实。

规模与能力的非线性跃升

Scaling Law 描述的是损失的平滑幂律下降，但能力的提升并不总是线性的：

某些评测任务存在"相变点"（Phase Transition）——超过某规模后任务可解率突增
推理密集型任务（数学、代码、逻辑）对规模更敏感，存在更陡峭的相变
知识密集型任务（事实问答）对数据量更敏感，规模提升带来平稳的知识增加

Scaling 的极限争论

随着训练 Token 数接近互联网文本总量，以及模型规模的计算成本指数级上升，业界对 Scaling 是否接近极限展开讨论：

悲观派：互联网数据总量约 100T Token，高质量数据更少；算力增长受限于硬件；简单 Scaling 已接近收益递减
乐观派：合成数据（Synthetic Data）可突破数据瓶颈；架构创新（MoE、状态空间模型）可提升参数效率；推理时 Scaling（Test-Time Compute）是新维度

当前行业对 Scaling 的投入

2024-2025 年，主流 AI 公司继续加大 Scaling 投入：

OpenAI GPT-4 训练成本估计超过 1 亿美元
微软、Google、Meta、xAI 分别宣布数百亿美元数据中心投资
训练集群规模从数千 GPU 扩展至十万甚至百万 GPU
Test-Time Scaling（推理时计算扩展）成为新研究热点：OpenAI o1/o3 通过延长推理时的思维链，用计算换准确率，代表 Scaling 从"训练时"向"推理时"延伸的新方向

Kaplan Scaling Law（2020）​

核心发现​

关键结论​

Chinchilla Law（2022，DeepMind）​

核心修正​

与 Kaplan 的对比​

参数量、数据量、计算量的三角关系​

最优计算预算分配​

训练计算最优（Chinchilla 视角）​

推理效率最优（工程实践视角）​

涌现能力（Emergent Abilities）现象​

典型涌现能力案例​

涌现能力的争议​

规模与能力的非线性跃升​

Scaling 的极限争论​

当前行业对 Scaling 的投入​