Diffusion Models

分类: 视觉任务

Diffusion Models

定义

通过学习逐步去噪过程来生成数据的生成模型,前向过程逐步向数据添加高斯噪声,反向过程学习从噪声中恢复数据

核心要点

数学基础:前向扩散 q(xtxt1)=N(1βtxt1,βtI)q(x_t|x_{t-1}) = \mathcal{N}(\sqrt{1-\beta_t} x_{t-1}, \beta_t I),反向去噪由神经网络参数化

与 GAN/VAE 的对比:训练更稳定(无模式崩塌)、生成质量更高,但采样速度慢(需多步去噪)

加速采样:DDIM(确定性采样)、Latent Diffusion(在潜空间操作)、一致性模型(Consistency Models)

代表工作

Ho et al. (2020): “Denoising Diffusion Probabilistic Models” (DDPM, NeurIPS)

Rombach et al. (2022): “Latent Diffusion Models” → Stable Diffusion

Song et al. (2021): “Score-Based Generative Modeling through SDEs”

相关概念

Vision-Language Models

SVD