VAR

分类: 网络架构

VAR (Visual Autoregressive Modeling)

定义

  • 将图像生成重新定义为”从粗到细”的多尺度自回归过程,每步生成一个分辨率级别的 token map,而非逐 token 生成

核心要点

  • 打破传统逐 token 的光栅扫描顺序,改为多尺度的自回归
  • 每一步预测整个低分辨率 token map → 逐步上采样到高分辨率
  • 生成速度和质量均优于传统自回归方法
  • 依赖多尺度 VQGAN tokenizer

代表工作

  • VAR: Tian et al. 2024, 北大 & ByteDance

相关概念