Scaling Laws
分类: 基础理论
Scaling Laws
定义
缩放定律描述了神经网络性能(通常以交叉熵损失衡量)与模型参数量、训练数据量和计算量之间的幂律关系,为大模型训练的资源分配提供了可预测的定量指导。
数学形式
Kaplan et al. (2020) 形式:
: 测试损失(交叉熵)
: 模型参数量(非嵌入参数),
: 训练数据量(token 数),
: 计算量(FLOPs),
: 与任务相关的常数
Chinchilla 最优分配(Hoffmann et al., 2022):
给定计算预算 ,模型参数量和训练 token 数应等比例扩大
核心要点
损失与 , , 各自呈平滑的幂律关系,在多个数量级上成立,可用于预测更大规模的训练结果
Kaplan 法则建议优先扩大模型(大模型 + 少数据),Chinchilla 法则修正为模型和数据应等比例扩大
Chinchilla(70B)用更多数据训练,以更少参数超过了 Gopher(280B),证明数据量同样关键
缩放定律的适用范围:语言模型、视觉模型、多模态模型中均观察到类似的幂律行为
涌现能力(emergent abilities):某些能力(如 Chain-of-Thought、In-Context Learning)在模型达到一定规模后突然出现,无法从小规模实验外推
对工程实践的意义:可以用小规模实验预测大规模训练的最终性能,指导计算资源分配
代表工作
Kaplan et al. (2020): “Scaling Laws for Neural Language Models”,首次系统化描述缩放定律
Hoffmann et al. (2022): “Training Compute-Optimal Large Language Models” (Chinchilla paper),修正最优模型/数据比例
Wei et al. (2022): “Emergent Abilities of Large Language Models”,讨论涌现能力与缩放的关系