VQGAN
分类: 网络架构
VQGAN
定义
- 结合向量量化(VQ)和对抗训练(GAN)的图像 tokenizer,将连续图像编码为离散 codebook 索引序列,是视觉生成模型的核心组件
数学形式
- 编码:
- 训练损失:
核心要点
- 编码器将图像映射到连续潜空间,量化器将其离散化为 codebook 向量
- 解码器从离散 token 重建图像,鉴别器提供对抗监督
- Codebook collapse(码本坍缩)是主要训练难题:大部分 code 不被使用
- 下游任务(图像生成、视频生成)依赖 codebook 质量
代表工作
- Taming Transformers: 原始 VQGAN 论文,Esser et al. 2021
- LDM: 基于 VQGAN 的潜在扩散模型
- SimVQ: 简化的 VQ 训练