LayerNorm

分类: 深度学习基础

LayerNorm

定义

对单个样本的特征维度进行归一化的方法,使每层的输出具有零均值和单位方差

数学形式

LayerNorm(x)=xμσ2+ϵγ+β\text{LayerNorm}(x) = \frac{x - \mu}{\sqrt{\sigma^2 + \epsilon}} \cdot \gamma + \beta

μ,σ2\mu, \sigma^2: 特征维度上的均值和方差

γ,β\gamma, \beta: 可学习的缩放和平移参数

核心要点

与 BatchNorm 不同,LayerNorm 不依赖 batch 统计,适合序列模型和小 batch 场景

是 Transformer 架构的标准归一化组件

在策略网络中(如 SAC)使用 LayerNorm 可提高训练稳定性

代表工作

RAMP: SAC 策略网络每层使用 LayerNorm 提升稳定性

相关概念

RMSNorm