Diffusion Models

分类: 视觉任务

定义

通过学习逐步去噪过程来生成数据的生成模型，前向过程逐步向数据添加高斯噪声，反向过程学习从噪声中恢复数据

数学基础：前向扩散 $q(x_t|x_{t-1}) = \mathcal{N}(\sqrt{1-\beta_t} x_{t-1}, \beta_t I)$ ，反向去噪由神经网络参数化

与 GAN/VAE 的对比：训练更稳定（无模式崩塌）、生成质量更高，但采样速度慢（需多步去噪）

加速采样：DDIM（确定性采样）、Latent Diffusion（在潜空间操作）、一致性模型（Consistency Models）

Ho et al. (2020): “Denoising Diffusion Probabilistic Models” (DDPM, NeurIPS)

Rombach et al. (2022): “Latent Diffusion Models” → Stable Diffusion

Song et al. (2021): “Score-Based Generative Modeling through SDEs”