μP

分类: 训练优化

μP(Maximal Update Parametrization)

定义

μP 是 Yang et al. (2021) 提出的一种网络参数化方案,使得在 任意宽度 下使用相同的学习率(hyperparameter transfer)都能保持训练动力学一致,从而可以在小模型上调好超参后直接迁移到大模型,不需要重新调参。

数学形式

在宽度为 ww\ell 层 MLP 中,μP 规定各层权重初始化标准差和学习率缩放如下:

W0lN(0,σl2),ηlwαlW^l_0 \sim \mathcal{N}(0, \sigma_l^2), \quad \eta_l \propto w^{-\alpha_l}

其中 αl\alpha_l 依层类型不同取值(输入层 1,隐藏层 1,输出层 0),确保每层的激活值和梯度在宽度扩展时保持 Θ(1)\Theta(1) 量级。

核心要点

核心思想:控制前向传播的”特征学习”量为 Θ(1)\Theta(1),使无限宽网络(Mean Field)的极限行为有意义

实践价值:在 width=128 调好学习率后,直接用同一学习率训 width=4096 的模型,不需要 grid search(被多个工业界预训练实践采用)

理论联系:μP 是矩阵算子范数框架(MOGA 论文)中 mean-normalized 1→(2,mean) 几何的特例

标准 NTP(NTK参数化)的区别:NTP 对应 width→∞ 时没有特征学习(Kernel regime);μP 保留了有限宽度下的特征学习

已知局限:对 attention + embedding 层的 μP 公式较复杂;Muon 等新型 optimizer 下的 μP 等价物仍在研究中

代表工作

Yang et al., 2021, “Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer”

On the Width Scaling of Neural Optimizers: 将 μP 统一到矩阵算子几何框架,MOGA 恢复 μP scaling 作为特例

相关概念

Muon

NTK

Effective Rank