SubLN

分类: 深度学习基础

SubLN

定义

在 Transformer sub-layer 的输入和输出同时施加 LayerNorm 的归一化策略,兼具 PreNorm 的训练稳定性和 PostNorm 的表达能力

数学形式

y=x+LN(Attention(LN(x)))y = x + \text{LN}(\text{Attention}(\text{LN}(x)))

核心要点

结合了 PreNorm(输入归一化)和 PostNorm(输出归一化)的优点

在 Magneto / Foundation Transformers 中提出并验证

配合特定的初始化策略,可以训练非常深的 Transformer

对训练超参数(如学习率)更加鲁棒

代表工作

Wang et al. (2022): “Foundation Transformers” (Microsoft) 提出 SubLN 架构

相关概念

PreNorm: SubLN 的前身之一

DeepNorm: 另一种深层 Transformer 归一化方案