Scaling Laws 与 Chinchilla 最优

分类: 推理与评估 · 难度: 中级 · 关联讲座: L01

Scaling Laws 是理解现代大语言模型（LLM）工程决策的核心理论工具。它回答了一个关键问题：给定固定的计算预算，应该训练多大的模型、用多少数据？

Kaplan et al. (2020) Scaling Law：

$L(N) \approx \left(\frac{N_c}{N}\right)^{\alpha_N}, \quad L(D) \approx \left(\frac{D_c}{D}\right)^{\alpha_D}$

其中 $L$ 是 loss， $N$ 是模型参数量， $D$ 是训练 token 数， $\alpha_N \approx 0.076$ ， $\alpha_D \approx 0.095$ 。

Hoffman et al. (2022) Chinchilla：给定计算预算 $C$ （FLOPs），最优策略为：

$N_{opt} \propto C^{0.5}, \quad D_{opt} \propto C^{0.5}$

即模型大小和数据量同等重要，应按 1:1 比例扩展（每参数约 20 个 token）。

实用推论：GPT-3（175B 参数，300B tokens）按 Chinchilla 标准严重”欠训练”——同等计算预算下，70B 参数训练 1.4T tokens 的 Chinchilla 模型性能更优。

Self-Attention 复杂度：

$\text{Attention}(Q,K,V) = \text{softmax}\!\left(\frac{QK^T}{\sqrt{d_k}}\right)V$

时间复杂度 $O(n^2 d)$ ，这正是为什么长上下文是 LLM 工程的核心挑战。

深度学习时代各里程碑的关键数字：

年份	系统	关键指标
2014	Seq2Seq (LSTM)	WMT EN→FR BLEU: 34.8（首次超过 SMT）
2017	Transformer	WMT EN→DE BLEU: 28.4（+2 vs LSTM+Attention）
2018	BERT-Large	GLUE: 80.4（+7.7 vs 前 SOTA）
2020	GPT-3 (175B)	Few-shot SuperGLUE: 71.8（接近 fine-tuned BERT）
2022	Chinchilla (70B)	MMLU: 67.5（优于 Gopher 280B 的 60.0）
2024	GPT-4o / Claude 3.5	MMLU > 90%，接近专家人类

Scaling Law 揭示了一个深刻的事实：语言能力是涌现（emergent）的，简单地扩大规模就能解锁新能力，而不需要专门设计每一项能力。

Attention 机制的关键创新是：允许模型动态选择”关注哪些信息”，而不是固定地按距离衰减（RNN）或手工选窗口（CNN）。

误区：LLM 只是”更大的 n-gram 模型” → 正确：LLM 通过注意力机制学会了组合性推理和泛化，能处理从未见过的概念组合——这是 n-gram 无法做到的。
误区：Scaling Law 说明”数据越多越好，参数越多越好” → 正确：Chinchilla 告诉我们两者需要平衡，给定计算预算，一味堆参数而数据不足会浪费计算。