Chameleon: Mixed-Modal Early-Fusion Foundation Models
作者: Meta AI 年份: 2024 会议: arXiv 分类: 视觉任务
论文笔记:Chameleon
一句话总结
- 提出 Chameleon,一种基于 early-fusion 的多模态基座模型,将图像和文本统一 tokenize 后在同一个 Transformer 中联合训练,原生支持任意模态组合的输入输出。
核心贡献
- Early Fusion 架构:将图像通过离散 VQ 编码器(基于 MAGVIT-v2)转为离散 token,与文本 token 拼接后输入同一个 Transformer,真正的统一序列建模
- 训练稳定性技巧:发现 early-fusion 训练极易不稳定,提出 QK-Norm(对 Query 和 Key 做归一化)和 dropout on z-loss 等关键技巧来稳定大规模训练
- 灵活的模态组合:单一模型原生支持 text→text、image→text、text→image、image+text→image+text 等任意模态组合,无需针对特定任务的适配模块
- 大规模训练:在 4.4T 混合模态 token 上训练 7B 和 34B 模型,在图文理解(VQA)和图像生成(FID)上与 specialized 模型竞争力相当
相关概念
- 多模态模型
- Early Fusion
- VQ-VAE
- 离散tokenization
- Transformer
- 图像生成