DiT

分类: 网络架构

DiT

定义

用 Transformer(而非 U-Net)作为扩散模型的去噪网络骨干,将图像/视频的潜在 patch 序列化后送入标准 Transformer 块进行去噪。

数学形式

去噪目标不变: L=Ex0,ϵ,t ⁣[ϵϵθ(xt,t,c)2]\mathcal{L} = \mathbb{E}_{x_0, \epsilon, t}\!\left[\|\epsilon - \epsilon_\theta(x_t, t, c)\|^2\right]

DiT 的创新在于 ϵθ\epsilon_\theta 的网络结构:将 latent zz patch 化后进行 Transformer 前向,条件 cc(class/text)通过 AdaLN(自适应 LayerNorm)注入,替换 U-Net 的 skip connection 设计。

核心要点

Peebles & Xie (2023) 提出,Scalable Diffusion Models with Transformers

用 patch embedding + Transformer block 替代 U-Net,天然继承 Transformer 的可扩展性(scaling law)

AdaLN-Zero 初始化:条件注入时残差分支初始化为零,训练更稳定

DiT-XL/2 在 ImageNet 256×256 达到当时 SOTA FID

后继: SiT, LDiT, MDT, 视频扩展(HiAR, LTX-2 等)均基于此架构

代表工作

Peebles & Xie (2023), Scalable Diffusion Models with Transformers (DiT)

BinaryAttention:在 DiT 上验证 1-bit 注意力量化的可行性

相关概念

MLP 模块

DINOv2

FlashAttention