neural scaling law
分类: 基础理论
Neural Scaling Law
定义
Neural scaling law(神经网络缩放定律)描述了模型性能(如 loss)与模型规模、数据量、计算量之间的幂律关系,即 或 ,为资源分配和模型设计提供定量指导。
数学形式
: 模型参数量,: 训练数据量,: 不可约损失
核心要点
Kaplan Scaling Law(OpenAI, 2020):loss 与参数量、数据量、计算量分别呈幂律关系
Chinchilla Scaling Law(DeepMind, 2022):给定计算预算,模型和数据应等比例缩放
对 LLM 训练的资源分配有重大实践意义
缩放律的适用范围和例外(如 emergence)仍在研究中
代表工作
Kaplan et al., 2020: “Scaling Laws for Neural Language Models”
Hoffmann et al., 2022: “Training Compute-Optimal Large Language Models”(Chinchilla)