DiT
分类: 网络架构
DiT
定义
用 Transformer(而非 U-Net)作为扩散模型的去噪网络骨干,将图像/视频的潜在 patch 序列化后送入标准 Transformer 块进行去噪。
数学形式
去噪目标不变:
DiT 的创新在于 的网络结构:将 latent patch 化后进行 Transformer 前向,条件 (class/text)通过 AdaLN(自适应 LayerNorm)注入,替换 U-Net 的 skip connection 设计。
核心要点
Peebles & Xie (2023) 提出,Scalable Diffusion Models with Transformers
用 patch embedding + Transformer block 替代 U-Net,天然继承 Transformer 的可扩展性(scaling law)
AdaLN-Zero 初始化:条件注入时残差分支初始化为零,训练更稳定
DiT-XL/2 在 ImageNet 256×256 达到当时 SOTA FID
后继: SiT, LDiT, MDT, 视频扩展(HiAR, LTX-2 等)均基于此架构
代表工作
Peebles & Xie (2023), Scalable Diffusion Models with Transformers (DiT)
BinaryAttention:在 DiT 上验证 1-bit 注意力量化的可行性