MaskGIT
分类: 网络架构
MaskGIT
定义
- 基于 masked token modeling 的图像生成方法,将图像量化为离散 token 后,用 BERT 风格的 mask-predict 策略迭代生成
核心要点
- 将图像通过 VQGAN 编码为离散 token 序列
- 训练时随机 mask 部分 token,模型学习预测被 mask 的 token
- 推理时从全 mask 开始,按置信度从高到低逐步 unmask
- 生成速度远快于自回归方法(8-16 步 vs 256+ 步)
代表工作
- MaskGIT: Chang et al. 2022, Google Research