AdaLN

分类: 深度学习基础

type:: concept aliases:: AdaLN, Adaptive Layer Normalization, adaLN-Zero

  • AdaLN

  • 定义

  • AdaLN (Adaptive Layer Normalization) 是一种条件归一化技术,通过外部条件信号(如时间步 tt、类别标签 cc)动态生成 LayerNorm 的缩放 (γ\gamma) 和偏移 (β\beta) 参数。

  • 数学形式

  • 标准 LayerNorm:LN(x)=γxμσ+β\text{LN}(x) = \gamma \cdot \frac{x - \mu}{\sigma} + \beta

  • AdaLN:AdaLN(x,c)=γ(c)xμσ+β(c)\text{AdaLN}(x, c) = \gamma(c) \cdot \frac{x - \mu}{\sigma} + \beta(c),其中 γ(c),β(c)=MLP(c)\gamma(c), \beta(c) = \text{MLP}(c)

  • adaLN-Zero 变体:额外生成一个逐维缩放因子 α(c)\alpha(c),初始化为零,用于残差连接前:x+α(c)Block(AdaLN(x,c))x + \alpha(c) \odot \text{Block}(\text{AdaLN}(x, c))

  • 核心要点

  • DiT 中取代 cross-attention 用于注入条件信息,计算量更小且效果更好

  • adaLN-Zero 的零初始化策略使得每个 Transformer block 初始时为恒等映射,有利于训练稳定性

  • 广泛用于扩散模型(Stable Diffusion 3、FLUX 等)的条件注入

  • 与 FiLM (Feature-wise Linear Modulation) 本质上是同一思想在不同领域的实例化

  • 代表工作

  • DiT: 首次在 Diffusion Transformer 中系统比较了 AdaLN 与 cross-attention

  • Stable Diffusion 3: 使用 adaLN 变体 + joint attention

  • 相关概念

  • DiT

  • Softmax