neural scaling law

分类: 基础理论

Neural Scaling Law

定义

Neural scaling law(神经网络缩放定律)描述了模型性能(如 loss)与模型规模、数据量、计算量之间的幂律关系,即 LNαL \propto N^{-\alpha}LDβL \propto D^{-\beta},为资源分配和模型设计提供定量指导。

数学形式

L(N,D)=(NcN)αN+(DcD)αD+LL(N, D) = \left(\frac{N_c}{N}\right)^{\alpha_N} + \left(\frac{D_c}{D}\right)^{\alpha_D} + L_\infty

NN: 模型参数量,DD: 训练数据量,LL_\infty: 不可约损失

核心要点

Kaplan Scaling Law(OpenAI, 2020):loss 与参数量、数据量、计算量分别呈幂律关系

Chinchilla Scaling Law(DeepMind, 2022):给定计算预算,模型和数据应等比例缩放

对 LLM 训练的资源分配有重大实践意义

缩放律的适用范围和例外(如 emergence)仍在研究中

代表工作

Kaplan et al., 2020: “Scaling Laws for Neural Language Models”

Hoffmann et al., 2022: “Training Compute-Optimal Large Language Models”(Chinchilla)

相关概念

NTK

Effective Rank