Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models

作者: Chunting Zhou, Lili Yu, Arun Babu, Kushal Tirumala, Michihiro Yasunaga, Leonid Shamis, Jacob Kahn, Xuezhe Ma, Luke Zettlemoyer, Omer Levy 年份: 2024 会议: arXiv 分类: 视觉任务

论文笔记：MoT

一句话总结

提出 Mixture-of-Transformers（MoT），对多模态 Transformer 的 FFN、注意力矩阵和层归一化按模态解耦为独立专家，在不增加计算量的前提下大幅提升多模态模型的参数效率。

核心贡献

模态解耦架构：将每层 Transformer 的 FFN、QKV 投影和层归一化按模态（文本/图像/语音）分别参数化，自注意力的点积计算仍在全序列上共享
参数效率：在 Transfusion 框架下，MoT 7B 用约 55% 的 FLOPs 即可匹配 dense 7B 模型的性能（文本理解 + 图像生成），或在相同 FLOPs 下大幅超越
灵活的稀疏粒度：支持仅解耦 FFN（MoT-Light）、解耦 FFN+Attention（MoT-Medium）、全部解耦（MoT-Full）三种配置，适应不同的计算预算
Scaling 行为：在 1.3B-7B 规模上验证 MoT 的 scaling 优势——随模型增大，MoT 相对 dense 模型的效率优势持续扩大，适合大规模多模态预训练

Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models

论文笔记：MoT

一句话总结

核心贡献

相关概念