Scaling Laws 与 Chinchilla 最优

分类: 推理与评估 · 难度: 中级 · 关联讲座: L01

Scaling Laws 是理解现代大语言模型(LLM)工程决策的核心理论工具。它回答了一个关键问题:给定固定的计算预算,应该训练多大的模型、用多少数据?

📐 Scaling Laws 与 Chinchilla 最优

Kaplan et al. (2020) Scaling Law

L(N)(NcN)αN,L(D)(DcD)αDL(N) \approx \left(\frac{N_c}{N}\right)^{\alpha_N}, \quad L(D) \approx \left(\frac{D_c}{D}\right)^{\alpha_D}

其中 LL 是 loss,NN 是模型参数量,DD 是训练 token 数,αN0.076\alpha_N \approx 0.076αD0.095\alpha_D \approx 0.095

Hoffman et al. (2022) Chinchilla:给定计算预算 CC(FLOPs),最优策略为:

NoptC0.5,DoptC0.5N_{opt} \propto C^{0.5}, \quad D_{opt} \propto C^{0.5}

即模型大小和数据量同等重要,应按 1:1 比例扩展(每参数约 20 个 token)。

实用推论:GPT-3(175B 参数,300B tokens)按 Chinchilla 标准严重”欠训练”——同等计算预算下,70B 参数训练 1.4T tokens 的 Chinchilla 模型性能更优。

Self-Attention 复杂度:

Attention(Q,K,V)=softmax ⁣(QKTdk)V\text{Attention}(Q,K,V) = \text{softmax}\!\left(\frac{QK^T}{\sqrt{d_k}}\right)V

时间复杂度 O(n2d)O(n^2 d),这正是为什么长上下文是 LLM 工程的核心挑战。

🔢 数值/具体示例

深度学习时代各里程碑的关键数字:

年份系统关键指标
2014Seq2Seq (LSTM)WMT EN→FR BLEU: 34.8(首次超过 SMT)
2017TransformerWMT EN→DE BLEU: 28.4(+2 vs LSTM+Attention)
2018BERT-LargeGLUE: 80.4(+7.7 vs 前 SOTA)
2020GPT-3 (175B)Few-shot SuperGLUE: 71.8(接近 fine-tuned BERT)
2022Chinchilla (70B)MMLU: 67.5(优于 Gopher 280B 的 60.0)
2024GPT-4o / Claude 3.5MMLU > 90%,接近专家人类

💡 为什么这样做?

Scaling Law 揭示了一个深刻的事实:语言能力是涌现(emergent)的,简单地扩大规模就能解锁新能力,而不需要专门设计每一项能力。

Attention 机制的关键创新是:允许模型动态选择”关注哪些信息”,而不是固定地按距离衰减(RNN)或手工选窗口(CNN)。

⚠️ 常见误区

  1. 误区:LLM 只是”更大的 n-gram 模型” → 正确:LLM 通过注意力机制学会了组合性推理和泛化,能处理从未见过的概念组合——这是 n-gram 无法做到的。
  2. 误区:Scaling Law 说明”数据越多越好,参数越多越好” → 正确:Chinchilla 告诉我们两者需要平衡,给定计算预算,一味堆参数而数据不足会浪费计算。