Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

作者: Chunting Zhou, Lili Yu, Arun Babu, Kushal Tirumala, Michihiro Yasunaga, Leonid Shamis, Jacob Kahn, Xuezhe Ma, Luke Zettlemoyer, Omer Levy 年份: 2024 会议: arXiv 分类: 视觉任务

论文笔记:Transfusion

一句话总结

  • 提出 Transfusion,在单一 Transformer 中同时用 next-token prediction 训练文本和用 diffusion loss 训练图像,避免将图像离散化带来的信息损失。

核心贡献

  • 混合训练目标:文本部分使用标准的 causal language modeling loss(交叉熵),图像部分使用 diffusion denoising loss(MSE),两个 loss 在同一模型中联合优化
  • 连续图像表示:图像通过 VAE 编码为连续 latent patch,而非离散 token,保留了更多视觉信息,避免 VQ 量化带来的保真度下降
  • U-Net 式注意力:在 diffusion 解码阶段引入 intra-image bidirectional attention,使图像 patch 之间可以双向交互(而文本仍保持 causal mask),兼顾两种模态的特性
  • Scaling 优势:在 7B 参数规模上,Transfusion 在图像生成(FID)和文本理解上均显著优于纯离散 token 方法(如 Chameleon),且 scaling 曲线更优

相关概念

  • 多模态模型
  • Diffusion Model
  • Next-Token Prediction
  • Chameleon
  • VAE
  • 图像生成