CS224N / 学习笔记

#normalization #layer-norm #RNN #Transformer

Layer Normalization

作者: Jimmy Lei Ba, Jamie Ryan Kiros, Geoffrey E. Hinton 年份: 2016 会议: arXiv 分类: 网络架构

论文笔记：Layer-Normalization

一句话总结

提出 Layer Normalization，沿特征维度（而非 batch 维度）归一化，解除对 batch size 的依赖，特别适用于 RNN 和后续 Transformer 架构。

核心贡献

Layer Normalization：对单个样本的所有隐藏单元计算均值和方差进行归一化，与 Batch Normalization 在 batch 维度归一化形成互补
RNN 友好：LayerNorm 不依赖 mini-batch 统计量，可直接应用于变长序列的 RNN，而 BatchNorm 在 RNN 中需要逐时间步维护统计量，实现复杂且不稳定
训练加速：通过稳定隐藏层激活值的分布，加快收敛速度，减少对学习率的敏感性
广泛适用性：在前馈网络、RNN、以及后来的 Transformer 中均表现出色，成为 Transformer 的标准组件（Pre-LN / Post-LN）

相关概念

Batch Normalization
Layer Normalization
Transformer
RNN
归一化技术