PreNorm

分类: 深度学习基础

定义

在 Transformer block 中，将 LayerNorm 放在自注意力/FFN 之前（而非之后）的归一化策略，配合残差连接形成 $x + \text{SubLayer}(\text{LN}(x))$ 的结构

$y = x + \text{Attention}(\text{LayerNorm}(x))$ $z = y + \text{FFN}(\text{LayerNorm}(y))$

相比 PostNorm（原始 Transformer），PreNorm 训练更稳定，不需要 learning rate warmup

但 PreNorm 以固定权重 1 累加所有层输出，导致隐状态随深度不可控增长

每层对最终输出的贡献被稀释，深层网络中尤为严重

是当前大多数 LLM（GPT、LLaMA 等）采用的默认方案

ViT: 采用 PreNorm 的视觉 Transformer

Xiong et al. (2020): “On Layer Normalization in the Transformer Architecture” 系统分析 PreNorm vs PostNorm