VAR
分类: 网络架构
VAR (Visual Autoregressive Modeling)
定义
- 将图像生成重新定义为”从粗到细”的多尺度自回归过程,每步生成一个分辨率级别的 token map,而非逐 token 生成
核心要点
- 打破传统逐 token 的光栅扫描顺序,改为多尺度的自回归
- 每一步预测整个低分辨率 token map → 逐步上采样到高分辨率
- 生成速度和质量均优于传统自回归方法
- 依赖多尺度 VQGAN tokenizer
代表工作
- VAR: Tian et al. 2024, 北大 & ByteDance