DeepNorm

分类: 深度学习基础

定义

微软提出的深层 Transformer 归一化方法，通过在残差连接中引入缩放因子 $\alpha$ 和对初始化施加约束，使 1000 层级别的 Transformer 可以稳定训练

$x_{l+1} = \text{LN}(\alpha \cdot x_l + \text{SubLayer}(x_l))$

其中 $\alpha > 1$ 是与网络深度相关的常数，初始化时 FFN 和 Attention 的权重按 $\beta$ 缩放（ $\beta < 1$ ）。

解决了深层 PostNorm Transformer 的梯度爆炸/消失问题

$\alpha$ 和 $\beta$ 的选择与模型深度 $N$ 和宽度相关，有理论推导

相比 PreNorm，DeepNorm 在深层模型上保持了 PostNorm 的表达能力优势

在 1000 层 Transformer 上成功训练，验证了 scaling 能力

Wang et al. (2022): “DeepNet: Scaling Transformers to 1,000 Layers” (Microsoft)