RMSNorm

分类: 深度学习基础

RMSNorm

定义

一种简化的归一化方法,仅使用均方根(RMS)进行归一化,省去 LayerNorm 中的均值中心化步骤

数学形式

RMSNorm(x)=x1ni=1nxi2+ϵγ\text{RMSNorm}(x) = \frac{x}{\sqrt{\frac{1}{n}\sum_{i=1}^{n} x_i^2 + \epsilon}} \cdot \gamma

γ\gamma: 可学习的缩放参数

ϵ\epsilon: 数值稳定常数

核心要点

相比 LayerNorm 计算开销更低(省去均值计算),效果相当

被 LLaMA、Mistral 等现代 LLM 广泛采用

在量化场景中,Scale Folding 技术通过调整 RMSNorm 参数来补偿激活缩放

代表工作

RAMP: Scale Folding 通过 RMSNormRMSNorm/s\text{RMSNorm} \leftarrow \text{RMSNorm} / s 补偿激活异常值迁移

相关概念

LayerNorm