DeepNorm

分类: 深度学习基础

DeepNorm

定义

微软提出的深层 Transformer 归一化方法,通过在残差连接中引入缩放因子 α\alpha 和对初始化施加约束,使 1000 层级别的 Transformer 可以稳定训练

数学形式

xl+1=LN(αxl+SubLayer(xl))x_{l+1} = \text{LN}(\alpha \cdot x_l + \text{SubLayer}(x_l))

其中 α>1\alpha > 1 是与网络深度相关的常数,初始化时 FFN 和 Attention 的权重按 β\beta 缩放(β<1\beta < 1)。

核心要点

解决了深层 PostNorm Transformer 的梯度爆炸/消失问题

α\alphaβ\beta 的选择与模型深度 NN 和宽度相关,有理论推导

相比 PreNorm,DeepNorm 在深层模型上保持了 PostNorm 的表达能力优势

在 1000 层 Transformer 上成功训练,验证了 scaling 能力

代表工作

Wang et al. (2022): “DeepNet: Scaling Transformers to 1,000 Layers” (Microsoft)

相关概念

PreNorm: DeepNorm 解决的正是 PreNorm 在极深网络中的信号稀释问题

SubLN: 另一种深层归一化方案