neural scaling law

分类: 基础理论

Neural Scaling Law

Neural scaling law（神经网络缩放定律）描述了模型性能（如 loss）与模型规模、数据量、计算量之间的幂律关系，即 $L \propto N^{-\alpha}$ 或 $L \propto D^{-\beta}$ ，为资源分配和模型设计提供定量指导。

$L(N, D) = \left(\frac{N_c}{N}\right)^{\alpha_N} + \left(\frac{D_c}{D}\right)^{\alpha_D} + L_\infty$

$N$ : 模型参数量， $D$ : 训练数据量， $L_\infty$ : 不可约损失

Kaplan Scaling Law（OpenAI, 2020）：loss 与参数量、数据量、计算量分别呈幂律关系

Chinchilla Scaling Law（DeepMind, 2022）：给定计算预算，模型和数据应等比例缩放

对 LLM 训练的资源分配有重大实践意义

缩放律的适用范围和例外（如 emergence）仍在研究中

Kaplan et al., 2020: “Scaling Laws for Neural Language Models”

Hoffmann et al., 2022: “Training Compute-Optimal Large Language Models”（Chinchilla）