L17: Multimodality (Guest: Luke Zettlemoyer)
Week 9 · Tue Mar 03 2026 08:00:00 GMT+0800 (中国标准时间)
L17: Multimodality
- 授课: Luke Zettlemoyer (Guest Lecture)
- 日期: Mar 3, 2026 (Week 9)
Slides
- Slides 未公开(Guest Lecture)
核心知识点
多模态基础模型
- 统一处理文本、图像、音频等多种模态的架构设计
- 从独立模态编码器到端到端统一模型的演进
📐 Transfusion 的混合损失函数
核心思想:同一个 Transformer 同时学两种生成任务,不同模态用不同的损失函数。
文本部分(离散 token)用标准语言建模损失:
图像部分(连续 patch embedding)用扩散去噪损失(DDPM 风格):
其中 , 是 Transformer 上下文(可包含文本)。
Mixture of Transformers (MoT) 的计算分离:共享注意力层(捕获跨模态交互),为每种模态分配独立的 FFN(捕获模态特有特征):
参数量:标准 层 Transformer 的 FFN 替换为 种 modal-specific FFN,参数总量 倍增加,但激活参数量不变(稀疏激活)。
📚 已收录至 拓展阅读知识库
🔢 早期融合 vs 晚期融合的对比
| 方法 | 代表模型 | 图像表示 | 文本-图像交互层级 | 优势 | 劣势 |
|---|---|---|---|---|---|
| 晚期融合(Late Fusion) | CLIP | 独立 ViT 编码 | 仅最终 embedding 对齐 | 检索效率高、可解耦 | 难以建模细粒度交互 |
| 交叉注意力(Cross-Attn) | Flamingo | 独立 ViT | Decoder 每层注入图像信息 | 灵活、可扩展 | 两套参数,部署复杂 |
| 早期融合(Early Fusion) | Chameleon | VQ-VAE token 化 | 图文 token 混排,统一 Transformer | 深度交互,架构简洁 | 图像 token 化损失信息 |
Chameleon 使用 8192 码本的 VQ-VAE 将 图像编码为 个 token,与文本 token 直接拼接送入 Transformer。
💡 为什么多模态很难?
模态鸿沟(Modality Gap):文本是离散的符号序列(低维语义),图像是连续的高维信号(像素强度)。两者的统计特性、信息密度、序列长度都完全不同。
早期融合的根本挑战:图像 VQ-VAE token 化会损失精细信息(颜色梯度、纹理),但换来了与文本的统一表示空间。Transfusion 的妥协方案是保留图像的连续表示,用扩散头生成,用注意力层交互——两全其美但实现复杂。
⚠️ 常见误区
-
误区:注意力可以自由地在文本和图像 token 之间流动,所以早期融合就是天然跨模态 → 正确:Transformer 对序列长度的 注意力代价在拼入 1024 图像 token 后剧增,实践中通常需要 FlashAttention + 图像块降采样。
-
误区:多模态能力等于视觉理解能力 → 正确:现有 VLM 在空间推理、计数、OCR 等任务上仍显著落后人类,这些任务需要图像特有的结构理解,不是语言 token 机制的强项。
Chameleon (Meta, 2024)
- 早期融合(early-fusion)多模态模型
- 将图像 token 化后与文本 token 统一处理
- 支持任意模态的输入输出组合
Transfusion (Meta, 2024)
- 在单一 Transformer 中同时执行语言建模和扩散
- 文本部分用 next-token prediction,图像部分用扩散损失
- 统一训练范式,避免模态间的信息割裂
Mixture of Transformers (MoT)
- 为不同模态分配专用的前馈层(FFN),共享注意力层
- 在匹配性能的同时减少计算开销
- 模态感知的稀疏激活机制
推荐阅读
- Chameleon: Mixed-Modal Early-Fusion Foundation Models (Meta, 2024)
- Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model (Meta, 2024)
- Mixture of Transformers (MoT) — 多模态稀疏 Transformer
关联概念
- Vision-Language Models, Diffusion Models
- Tokenization, Early Fusion vs. Late Fusion
- L05 Transformers