Scaling Laws 与 Chinchilla 最优
分类: 推理与评估 · 难度: 中级 · 关联讲座: L01
Scaling Laws 是理解现代大语言模型(LLM)工程决策的核心理论工具。它回答了一个关键问题:给定固定的计算预算,应该训练多大的模型、用多少数据?
📐 Scaling Laws 与 Chinchilla 最优
Kaplan et al. (2020) Scaling Law:
其中 是 loss, 是模型参数量, 是训练 token 数,,。
Hoffman et al. (2022) Chinchilla:给定计算预算 (FLOPs),最优策略为:
即模型大小和数据量同等重要,应按 1:1 比例扩展(每参数约 20 个 token)。
实用推论:GPT-3(175B 参数,300B tokens)按 Chinchilla 标准严重”欠训练”——同等计算预算下,70B 参数训练 1.4T tokens 的 Chinchilla 模型性能更优。
Self-Attention 复杂度:
时间复杂度 ,这正是为什么长上下文是 LLM 工程的核心挑战。
🔢 数值/具体示例
深度学习时代各里程碑的关键数字:
| 年份 | 系统 | 关键指标 |
|---|---|---|
| 2014 | Seq2Seq (LSTM) | WMT EN→FR BLEU: 34.8(首次超过 SMT) |
| 2017 | Transformer | WMT EN→DE BLEU: 28.4(+2 vs LSTM+Attention) |
| 2018 | BERT-Large | GLUE: 80.4(+7.7 vs 前 SOTA) |
| 2020 | GPT-3 (175B) | Few-shot SuperGLUE: 71.8(接近 fine-tuned BERT) |
| 2022 | Chinchilla (70B) | MMLU: 67.5(优于 Gopher 280B 的 60.0) |
| 2024 | GPT-4o / Claude 3.5 | MMLU > 90%,接近专家人类 |
💡 为什么这样做?
Scaling Law 揭示了一个深刻的事实:语言能力是涌现(emergent)的,简单地扩大规模就能解锁新能力,而不需要专门设计每一项能力。
Attention 机制的关键创新是:允许模型动态选择”关注哪些信息”,而不是固定地按距离衰减(RNN)或手工选窗口(CNN)。
⚠️ 常见误区
- 误区:LLM 只是”更大的 n-gram 模型” → 正确:LLM 通过注意力机制学会了组合性推理和泛化,能处理从未见过的概念组合——这是 n-gram 无法做到的。
- 误区:Scaling Law 说明”数据越多越好,参数越多越好” → 正确:Chinchilla 告诉我们两者需要平衡,给定计算预算,一味堆参数而数据不足会浪费计算。