DeepNorm
分类: 深度学习基础
DeepNorm
定义
微软提出的深层 Transformer 归一化方法,通过在残差连接中引入缩放因子 和对初始化施加约束,使 1000 层级别的 Transformer 可以稳定训练
数学形式
其中 是与网络深度相关的常数,初始化时 FFN 和 Attention 的权重按 缩放()。
核心要点
解决了深层 PostNorm Transformer 的梯度爆炸/消失问题
和 的选择与模型深度 和宽度相关,有理论推导
相比 PreNorm,DeepNorm 在深层模型上保持了 PostNorm 的表达能力优势
在 1000 层 Transformer 上成功训练,验证了 scaling 能力
代表工作
Wang et al. (2022): “DeepNet: Scaling Transformers to 1,000 Layers” (Microsoft)
相关概念
PreNorm: DeepNorm 解决的正是 PreNorm 在极深网络中的信号稀释问题
SubLN: 另一种深层归一化方案