Scaling Laws

分类: 基础理论

定义

缩放定律描述了神经网络性能（通常以交叉熵损失衡量）与模型参数量、训练数据量和计算量之间的幂律关系，为大模型训练的资源分配提供了可预测的定量指导。

Kaplan et al. (2020) 形式：

L(N) = \left(\frac{N_c}{N}\right)^{\alpha_N}, \quad L(D) = \left(\frac{D_c}{D}\right)^{\alpha_D}, \quad L(C) = \left(\frac{C_c}{C}\right)^{\alpha_C}

$L$ : 测试损失（交叉熵）

$N$ : 模型参数量（非嵌入参数）， $\alpha_N \approx 0.076$

$D$ : 训练数据量（token 数）， $\alpha_D \approx 0.095$

$C$ : 计算量（FLOPs）， $\alpha_C \approx 0.050$

$N_c, D_c, C_c$ : 与任务相关的常数

Chinchilla 最优分配（Hoffmann et al., 2022）：

N_{\text{opt}} \propto C^{0.5}, \quad D_{\text{opt}} \propto C^{0.5}

给定计算预算 $C$ ，模型参数量和训练 token 数应等比例扩大

损失与 $N$ , $D$ , $C$ 各自呈平滑的幂律关系，在多个数量级上成立，可用于预测更大规模的训练结果

Kaplan 法则建议优先扩大模型（大模型 + 少数据），Chinchilla 法则修正为模型和数据应等比例扩大

Chinchilla（70B）用更多数据训练，以更少参数超过了 Gopher（280B），证明数据量同样关键

缩放定律的适用范围：语言模型、视觉模型、多模态模型中均观察到类似的幂律行为

涌现能力（emergent abilities）：某些能力（如 Chain-of-Thought、In-Context Learning）在模型达到一定规模后突然出现，无法从小规模实验外推

对工程实践的意义：可以用小规模实验预测大规模训练的最终性能，指导计算资源分配

Kaplan et al. (2020): “Scaling Laws for Neural Language Models”，首次系统化描述缩放定律

Hoffmann et al. (2022): “Training Compute-Optimal Large Language Models” (Chinchilla paper)，修正最优模型/数据比例

Wei et al. (2022): “Emergent Abilities of Large Language Models”，讨论涌现能力与缩放的关系