MaskGIT

分类: 网络架构

MaskGIT

定义

  • 基于 masked token modeling 的图像生成方法,将图像量化为离散 token 后,用 BERT 风格的 mask-predict 策略迭代生成

核心要点

  • 将图像通过 VQGAN 编码为离散 token 序列
  • 训练时随机 mask 部分 token,模型学习预测被 mask 的 token
  • 推理时从全 mask 开始,按置信度从高到低逐步 unmask
  • 生成速度远快于自回归方法(8-16 步 vs 256+ 步)

代表工作

  • MaskGIT: Chang et al. 2022, Google Research

相关概念