SubLN
分类: 深度学习基础
SubLN
定义
在 Transformer sub-layer 的输入和输出同时施加 LayerNorm 的归一化策略,兼具 PreNorm 的训练稳定性和 PostNorm 的表达能力
数学形式
核心要点
结合了 PreNorm(输入归一化)和 PostNorm(输出归一化)的优点
在 Magneto / Foundation Transformers 中提出并验证
配合特定的初始化策略,可以训练非常深的 Transformer
对训练超参数(如学习率)更加鲁棒
代表工作
Wang et al. (2022): “Foundation Transformers” (Microsoft) 提出 SubLN 架构
相关概念
PreNorm: SubLN 的前身之一
DeepNorm: 另一种深层 Transformer 归一化方案