DiT

分类: 网络架构

定义

用 Transformer（而非 U-Net）作为扩散模型的去噪网络骨干，将图像/视频的潜在 patch 序列化后送入标准 Transformer 块进行去噪。

去噪目标不变： $\mathcal{L} = \mathbb{E}_{x_0, \epsilon, t}\!\left[\|\epsilon - \epsilon_\theta(x_t, t, c)\|^2\right]$

DiT 的创新在于 $\epsilon_\theta$ 的网络结构：将 latent $z$ patch 化后进行 Transformer 前向，条件 $c$ （class/text）通过 AdaLN（自适应 LayerNorm）注入，替换 U-Net 的 skip connection 设计。

Peebles & Xie (2023) 提出，Scalable Diffusion Models with Transformers

用 patch embedding + Transformer block 替代 U-Net，天然继承 Transformer 的可扩展性（scaling law）

AdaLN-Zero 初始化：条件注入时残差分支初始化为零，训练更稳定

DiT-XL/2 在 ImageNet 256×256 达到当时 SOTA FID

后继: SiT, LDiT, MDT, 视频扩展（HiAR, LTX-2 等）均基于此架构

Peebles & Xie (2023), Scalable Diffusion Models with Transformers (DiT)

BinaryAttention：在 DiT 上验证 1-bit 注意力量化的可行性