AdaLN
分类: 深度学习基础
type:: concept aliases:: AdaLN, Adaptive Layer Normalization, adaLN-Zero
-
AdaLN
-
定义
-
AdaLN (Adaptive Layer Normalization) 是一种条件归一化技术,通过外部条件信号(如时间步 、类别标签 )动态生成 LayerNorm 的缩放 () 和偏移 () 参数。
-
数学形式
-
标准 LayerNorm:
-
AdaLN:,其中
-
adaLN-Zero 变体:额外生成一个逐维缩放因子 ,初始化为零,用于残差连接前:
-
核心要点
-
在 DiT 中取代 cross-attention 用于注入条件信息,计算量更小且效果更好
-
adaLN-Zero 的零初始化策略使得每个 Transformer block 初始时为恒等映射,有利于训练稳定性
-
广泛用于扩散模型(Stable Diffusion 3、FLUX 等)的条件注入
-
与 FiLM (Feature-wise Linear Modulation) 本质上是同一思想在不同领域的实例化
-
代表工作
-
DiT: 首次在 Diffusion Transformer 中系统比较了 AdaLN 与 cross-attention
-
Stable Diffusion 3: 使用 adaLN 变体 + joint attention
-
相关概念