CS224N / 学习笔记

LayerNorm

分类: 深度学习基础

LayerNorm

定义

对单个样本的特征维度进行归一化的方法，使每层的输出具有零均值和单位方差

数学形式

\text{LayerNorm}(x) = \frac{x - \mu}{\sqrt{\sigma^2 + \epsilon}} \cdot \gamma + \beta

$\mu, \sigma^2$ : 特征维度上的均值和方差

$\gamma, \beta$ : 可学习的缩放和平移参数

核心要点

与 BatchNorm 不同，LayerNorm 不依赖 batch 统计，适合序列模型和小 batch 场景

是 Transformer 架构的标准归一化组件

在策略网络中（如 SAC）使用 LayerNorm 可提高训练稳定性

代表工作

RAMP: SAC 策略网络每层使用 LayerNorm 提升稳定性

相关概念