CS224N / 学习笔记

VQGAN

分类: 网络架构

VQGAN

定义

结合向量量化（VQ）和对抗训练（GAN）的图像 tokenizer，将连续图像编码为离散 codebook 索引序列，是视觉生成模型的核心组件

数学形式

编码： $z_q = \text{Quantize}(E(x)) = \arg\min_{c_k \in \mathcal{C}} \|E(x) - c_k\|$
训练损失： $\mathcal{L} = \mathcal{L}_\text{rec} + \mathcal{L}_\text{commit} + \mathcal{L}_\text{GAN}$

核心要点

编码器将图像映射到连续潜空间，量化器将其离散化为 codebook 向量
解码器从离散 token 重建图像，鉴别器提供对抗监督
Codebook collapse（码本坍缩）是主要训练难题：大部分 code 不被使用
下游任务（图像生成、视频生成）依赖 codebook 质量

代表工作

Taming Transformers: 原始 VQGAN 论文，Esser et al. 2021
LDM: 基于 VQGAN 的潜在扩散模型
SimVQ: 简化的 VQ 训练

相关概念