Layer Normalization

作者: Jimmy Lei Ba, Jamie Ryan Kiros, Geoffrey E. Hinton 年份: 2016 会议: arXiv 分类: 网络架构

论文笔记:Layer-Normalization

一句话总结

  • 提出 Layer Normalization,沿特征维度(而非 batch 维度)归一化,解除对 batch size 的依赖,特别适用于 RNN 和后续 Transformer 架构。

核心贡献

  • Layer Normalization:对单个样本的所有隐藏单元计算均值和方差进行归一化,与 Batch Normalization 在 batch 维度归一化形成互补
  • RNN 友好:LayerNorm 不依赖 mini-batch 统计量,可直接应用于变长序列的 RNN,而 BatchNorm 在 RNN 中需要逐时间步维护统计量,实现复杂且不稳定
  • 训练加速:通过稳定隐藏层激活值的分布,加快收敛速度,减少对学习率的敏感性
  • 广泛适用性:在前馈网络、RNN、以及后来的 Transformer 中均表现出色,成为 Transformer 的标准组件(Pre-LN / Post-LN)

相关概念