Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models

作者: Chunting Zhou, Lili Yu, Arun Babu, Kushal Tirumala, Michihiro Yasunaga, Leonid Shamis, Jacob Kahn, Xuezhe Ma, Luke Zettlemoyer, Omer Levy 年份: 2024 会议: arXiv 分类: 视觉任务

论文笔记:MoT

一句话总结

  • 提出 Mixture-of-Transformers(MoT),对多模态 Transformer 的 FFN、注意力矩阵和层归一化按模态解耦为独立专家,在不增加计算量的前提下大幅提升多模态模型的参数效率。

核心贡献

  • 模态解耦架构:将每层 Transformer 的 FFN、QKV 投影和层归一化按模态(文本/图像/语音)分别参数化,自注意力的点积计算仍在全序列上共享
  • 参数效率:在 Transfusion 框架下,MoT 7B 用约 55% 的 FLOPs 即可匹配 dense 7B 模型的性能(文本理解 + 图像生成),或在相同 FLOPs 下大幅超越
  • 灵活的稀疏粒度:支持仅解耦 FFN(MoT-Light)、解耦 FFN+Attention(MoT-Medium)、全部解耦(MoT-Full)三种配置,适应不同的计算预算
  • Scaling 行为:在 1.3B-7B 规模上验证 MoT 的 scaling 优势——随模型增大,MoT 相对 dense 模型的效率优势持续扩大,适合大规模多模态预训练

相关概念

  • 多模态模型
  • Mixture-of-Experts
  • Transfusion
  • 稀疏架构
  • 参数效率
  • 模态专家