VQGAN

分类: 网络架构

VQGAN

定义

  • 结合向量量化(VQ)和对抗训练(GAN)的图像 tokenizer,将连续图像编码为离散 codebook 索引序列,是视觉生成模型的核心组件

数学形式

  • 编码:zq=Quantize(E(x))=argminckCE(x)ckz_q = \text{Quantize}(E(x)) = \arg\min_{c_k \in \mathcal{C}} \|E(x) - c_k\|
  • 训练损失:L=Lrec+Lcommit+LGAN\mathcal{L} = \mathcal{L}_\text{rec} + \mathcal{L}_\text{commit} + \mathcal{L}_\text{GAN}

核心要点

  • 编码器将图像映射到连续潜空间,量化器将其离散化为 codebook 向量
  • 解码器从离散 token 重建图像,鉴别器提供对抗监督
  • Codebook collapse(码本坍缩)是主要训练难题:大部分 code 不被使用
  • 下游任务(图像生成、视频生成)依赖 codebook 质量

代表工作

  • Taming Transformers: 原始 VQGAN 论文,Esser et al. 2021
  • LDM: 基于 VQGAN 的潜在扩散模型
  • SimVQ: 简化的 VQ 训练

相关概念