RMSNorm
分类: 深度学习基础
RMSNorm
定义
一种简化的归一化方法,仅使用均方根(RMS)进行归一化,省去 LayerNorm 中的均值中心化步骤
数学形式
RMSNorm(x)=n1∑i=1nxi2+ϵx⋅γ
γ: 可学习的缩放参数
ϵ: 数值稳定常数
核心要点
相比 LayerNorm 计算开销更低(省去均值计算),效果相当
被 LLaMA、Mistral 等现代 LLM 广泛采用
在量化场景中,Scale Folding 技术通过调整 RMSNorm 参数来补偿激活缩放
代表工作
RAMP: Scale Folding 通过 RMSNorm←RMSNorm/s 补偿激活异常值迁移
相关概念
LayerNorm