CS224N / 学习笔记

SubLN

分类: 深度学习基础

SubLN

定义

在 Transformer sub-layer 的输入和输出同时施加 LayerNorm 的归一化策略，兼具 PreNorm 的训练稳定性和 PostNorm 的表达能力

数学形式

$y = x + \text{LN}(\text{Attention}(\text{LN}(x)))$

核心要点

结合了 PreNorm（输入归一化）和 PostNorm（输出归一化）的优点

在 Magneto / Foundation Transformers 中提出并验证

配合特定的初始化策略，可以训练非常深的 Transformer

对训练超参数（如学习率）更加鲁棒

代表工作

Wang et al. (2022): “Foundation Transformers” (Microsoft) 提出 SubLN 架构

相关概念

PreNorm: SubLN 的前身之一

DeepNorm: 另一种深层 Transformer 归一化方案