Scaling Laws

分类: 基础理论

Scaling Laws

定义

缩放定律描述了神经网络性能(通常以交叉熵损失衡量)与模型参数量、训练数据量和计算量之间的幂律关系,为大模型训练的资源分配提供了可预测的定量指导。

数学形式

Kaplan et al. (2020) 形式:

L(N)=(NcN)αN,L(D)=(DcD)αD,L(C)=(CcC)αCL(N) = \left(\frac{N_c}{N}\right)^{\alpha_N}, \quad L(D) = \left(\frac{D_c}{D}\right)^{\alpha_D}, \quad L(C) = \left(\frac{C_c}{C}\right)^{\alpha_C}

LL: 测试损失(交叉熵)

NN: 模型参数量(非嵌入参数),αN0.076\alpha_N \approx 0.076

DD: 训练数据量(token 数),αD0.095\alpha_D \approx 0.095

CC: 计算量(FLOPs),αC0.050\alpha_C \approx 0.050

Nc,Dc,CcN_c, D_c, C_c: 与任务相关的常数

Chinchilla 最优分配(Hoffmann et al., 2022):

NoptC0.5,DoptC0.5N_{\text{opt}} \propto C^{0.5}, \quad D_{\text{opt}} \propto C^{0.5}

给定计算预算 CC,模型参数量和训练 token 数应等比例扩大

核心要点

损失与 NN, DD, CC 各自呈平滑的幂律关系,在多个数量级上成立,可用于预测更大规模的训练结果

Kaplan 法则建议优先扩大模型(大模型 + 少数据),Chinchilla 法则修正为模型和数据应等比例扩大

Chinchilla(70B)用更多数据训练,以更少参数超过了 Gopher(280B),证明数据量同样关键

缩放定律的适用范围:语言模型、视觉模型、多模态模型中均观察到类似的幂律行为

涌现能力(emergent abilities):某些能力(如 Chain-of-ThoughtIn-Context Learning)在模型达到一定规模后突然出现,无法从小规模实验外推

对工程实践的意义:可以用小规模实验预测大规模训练的最终性能,指导计算资源分配

代表工作

Kaplan et al. (2020): “Scaling Laws for Neural Language Models”,首次系统化描述缩放定律

Hoffmann et al. (2022): “Training Compute-Optimal Large Language Models” (Chinchilla paper),修正最优模型/数据比例

Wei et al. (2022): “Emergent Abilities of Large Language Models”,讨论涌现能力与缩放的关系

相关概念

Language Model

Chain-of-Thought

In-Context Learning

Pretraining