Chameleon: Mixed-Modal Early-Fusion Foundation Models

作者: Meta AI 年份: 2024 会议: arXiv 分类: 视觉任务

论文笔记:Chameleon

一句话总结

  • 提出 Chameleon,一种基于 early-fusion 的多模态基座模型,将图像和文本统一 tokenize 后在同一个 Transformer 中联合训练,原生支持任意模态组合的输入输出。

核心贡献

  • Early Fusion 架构:将图像通过离散 VQ 编码器(基于 MAGVIT-v2)转为离散 token,与文本 token 拼接后输入同一个 Transformer,真正的统一序列建模
  • 训练稳定性技巧:发现 early-fusion 训练极易不稳定,提出 QK-Norm(对 Query 和 Key 做归一化)和 dropout on z-loss 等关键技巧来稳定大规模训练
  • 灵活的模态组合:单一模型原生支持 text→text、image→text、text→image、image+text→image+text 等任意模态组合,无需针对特定任务的适配模块
  • 大规模训练:在 4.4T 混合模态 token 上训练 7B 和 34B 模型,在图文理解(VQA)和图像生成(FID)上与 specialized 模型竞争力相当

相关概念

  • 多模态模型
  • Early Fusion
  • VQ-VAE
  • 离散tokenization
  • Transformer
  • 图像生成