AdaLN

分类: 深度学习基础

type:: concept aliases:: AdaLN, Adaptive Layer Normalization, adaLN-Zero

AdaLN
定义
AdaLN (Adaptive Layer Normalization) 是一种条件归一化技术，通过外部条件信号（如时间步 $t$ 、类别标签 $c$ ）动态生成 LayerNorm 的缩放 ( $\gamma$ ) 和偏移 ( $\beta$ ) 参数。
数学形式
标准 LayerNorm： $\text{LN}(x) = \gamma \cdot \frac{x - \mu}{\sigma} + \beta$
AdaLN： $\text{AdaLN}(x, c) = \gamma(c) \cdot \frac{x - \mu}{\sigma} + \beta(c)$ ，其中 $\gamma(c), \beta(c) = \text{MLP}(c)$
adaLN-Zero 变体：额外生成一个逐维缩放因子 $\alpha(c)$ ，初始化为零，用于残差连接前： $x + \alpha(c) \odot \text{Block}(\text{AdaLN}(x, c))$
核心要点
在 DiT 中取代 cross-attention 用于注入条件信息，计算量更小且效果更好
adaLN-Zero 的零初始化策略使得每个 Transformer block 初始时为恒等映射，有利于训练稳定性
广泛用于扩散模型（Stable Diffusion 3、FLUX 等）的条件注入
与 FiLM (Feature-wise Linear Modulation) 本质上是同一思想在不同领域的实例化
代表工作
DiT: 首次在 Diffusion Transformer 中系统比较了 AdaLN 与 cross-attention
Stable Diffusion 3: 使用 adaLN 变体 + joint attention
相关概念
DiT
Softmax

定义