Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models
作者: Chunting Zhou, Lili Yu, Arun Babu, Kushal Tirumala, Michihiro Yasunaga, Leonid Shamis, Jacob Kahn, Xuezhe Ma, Luke Zettlemoyer, Omer Levy 年份: 2024 会议: arXiv 分类: 视觉任务
论文笔记:MoT
一句话总结
- 提出 Mixture-of-Transformers(MoT),对多模态 Transformer 的 FFN、注意力矩阵和层归一化按模态解耦为独立专家,在不增加计算量的前提下大幅提升多模态模型的参数效率。
核心贡献
- 模态解耦架构:将每层 Transformer 的 FFN、QKV 投影和层归一化按模态(文本/图像/语音)分别参数化,自注意力的点积计算仍在全序列上共享
- 参数效率:在 Transfusion 框架下,MoT 7B 用约 55% 的 FLOPs 即可匹配 dense 7B 模型的性能(文本理解 + 图像生成),或在相同 FLOPs 下大幅超越
- 灵活的稀疏粒度:支持仅解耦 FFN(MoT-Light)、解耦 FFN+Attention(MoT-Medium)、全部解耦(MoT-Full)三种配置,适应不同的计算预算
- Scaling 行为:在 1.3B-7B 规模上验证 MoT 的 scaling 优势——随模型增大,MoT 相对 dense 模型的效率优势持续扩大,适合大规模多模态预训练
相关概念
- 多模态模型
- Mixture-of-Experts
- Transfusion
- 稀疏架构
- 参数效率
- 模态专家