CS224N / 学习笔记

#multimodal #early-fusion #tokenization #image-text #多模态基座模型

Chameleon: Mixed-Modal Early-Fusion Foundation Models

作者: Meta AI 年份: 2024 会议: arXiv 分类: 视觉任务

论文笔记：Chameleon

一句话总结

提出 Chameleon，一种基于 early-fusion 的多模态基座模型，将图像和文本统一 tokenize 后在同一个 Transformer 中联合训练，原生支持任意模态组合的输入输出。

核心贡献

Early Fusion 架构：将图像通过离散 VQ 编码器（基于 MAGVIT-v2）转为离散 token，与文本 token 拼接后输入同一个 Transformer，真正的统一序列建模
训练稳定性技巧：发现 early-fusion 训练极易不稳定，提出 QK-Norm（对 Query 和 Key 做归一化）和 dropout on z-loss 等关键技巧来稳定大规模训练
灵活的模态组合：单一模型原生支持 text→text、image→text、text→image、image+text→image+text 等任意模态组合，无需针对特定任务的适配模块
大规模训练：在 4.4T 混合模态 token 上训练 7B 和 34B 模型，在图文理解（VQA）和图像生成（FID）上与 specialized 模型竞争力相当

相关概念

多模态模型
Early Fusion
VQ-VAE
离散tokenization
Transformer
图像生成