μP

分类: 训练优化

μP（Maximal Update Parametrization）

μP 是 Yang et al. (2021) 提出的一种网络参数化方案，使得在 任意宽度 下使用相同的学习率（hyperparameter transfer）都能保持训练动力学一致，从而可以在小模型上调好超参后直接迁移到大模型，不需要重新调参。

在宽度为 $w$ 的 $\ell$ 层 MLP 中，μP 规定各层权重初始化标准差和学习率缩放如下：

$W^l_0 \sim \mathcal{N}(0, \sigma_l^2), \quad \eta_l \propto w^{-\alpha_l}$

其中 $\alpha_l$ 依层类型不同取值（输入层 1，隐藏层 1，输出层 0），确保每层的激活值和梯度在宽度扩展时保持 $\Theta(1)$ 量级。

核心思想：控制前向传播的”特征学习”量为 $\Theta(1)$ ，使无限宽网络（Mean Field）的极限行为有意义

实践价值：在 width=128 调好学习率后，直接用同一学习率训 width=4096 的模型，不需要 grid search（被多个工业界预训练实践采用）

理论联系：μP 是矩阵算子范数框架（MOGA 论文）中 mean-normalized 1→(2,mean) 几何的特例

标准 NTP（NTK参数化）的区别：NTP 对应 width→∞ 时没有特征学习（Kernel regime）；μP 保留了有限宽度下的特征学习

已知局限：对 attention + embedding 层的 μP 公式较复杂；Muon 等新型 optimizer 下的 μP 等价物仍在研究中

Yang et al., 2021, “Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer”

On the Width Scaling of Neural Optimizers: 将 μP 统一到矩阵算子几何框架，MOGA 恢复 μP scaling 作为特例