L17: Multimodality (Guest: Luke Zettlemoyer)

Week 9 · Tue Mar 03 2026 08:00:00 GMT+0800 (中国标准时间)

进度: 0/22 (0%)

L17: Multimodality

授课: Luke Zettlemoyer (Guest Lecture)
日期: Mar 3, 2026 (Week 9)

Slides

Slides 未公开（Guest Lecture）

核心知识点

多模态基础模型

统一处理文本、图像、音频等多种模态的架构设计
从独立模态编码器到端到端统一模型的演进

📐 Transfusion 的混合损失函数

核心思想：同一个 Transformer 同时学两种生成任务，不同模态用不同的损失函数。

$\mathcal{L} = \mathcal{L}_{\text{LM}} + \lambda \cdot \mathcal{L}_{\text{diffusion}}$

文本部分（离散 token）用标准语言建模损失：

$\mathcal{L}_{\text{LM}} = -\sum_{t} \log P(x_t | x_{<t})$

图像部分（连续 patch embedding）用扩散去噪损失（DDPM 风格）：

$\mathcal{L}_{\text{diffusion}} = \mathbb{E}_{t, \epsilon} \left[ \| \epsilon - \epsilon_\theta(z_t, t, c) \|^2 \right]$

其中 $z_t = \sqrt{\bar\alpha_t} z_0 + \sqrt{1-\bar\alpha_t} \epsilon$ ， $c$ 是 Transformer 上下文（可包含文本）。

Mixture of Transformers (MoT) 的计算分离：共享注意力层（捕获跨模态交互），为每种模态分配独立的 FFN（捕获模态特有特征）：

$h_{\text{out}} = \text{Attn}(h) + \text{FFN}_{\text{modal}}(h)$

参数量：标准 $n$ 层 Transformer 的 FFN 替换为 $m$ 种 modal-specific FFN，参数总量 $\times m/n$ 倍增加，但激活参数量不变（稀疏激活）。

📚 已收录至拓展阅读知识库

🔢 早期融合 vs 晚期融合的对比

方法	代表模型	图像表示	文本-图像交互层级	优势	劣势
晚期融合（Late Fusion）	CLIP	独立 ViT 编码	仅最终 embedding 对齐	检索效率高、可解耦	难以建模细粒度交互
交叉注意力（Cross-Attn）	Flamingo	独立 ViT	Decoder 每层注入图像信息	灵活、可扩展	两套参数，部署复杂
早期融合（Early Fusion）	Chameleon	VQ-VAE token 化	图文 token 混排，统一 Transformer	深度交互，架构简洁	图像 token 化损失信息

Chameleon 使用 8192 码本的 VQ-VAE 将 $256 \times 256$ 图像编码为 $32 \times 32 = 1024$ 个 token，与文本 token 直接拼接送入 Transformer。

💡 为什么多模态很难？

模态鸿沟（Modality Gap）：文本是离散的符号序列（低维语义），图像是连续的高维信号（像素强度）。两者的统计特性、信息密度、序列长度都完全不同。

早期融合的根本挑战：图像 VQ-VAE token 化会损失精细信息（颜色梯度、纹理），但换来了与文本的统一表示空间。Transfusion 的妥协方案是保留图像的连续表示，用扩散头生成，用注意力层交互——两全其美但实现复杂。

⚠️ 常见误区

误区：注意力可以自由地在文本和图像 token 之间流动，所以早期融合就是天然跨模态 → 正确：Transformer 对序列长度的 $O(n^2)$ 注意力代价在拼入 1024 图像 token 后剧增，实践中通常需要 FlashAttention + 图像块降采样。
误区：多模态能力等于视觉理解能力 → 正确：现有 VLM 在空间推理、计数、OCR 等任务上仍显著落后人类，这些任务需要图像特有的结构理解，不是语言 token 机制的强项。

Chameleon (Meta, 2024)

早期融合（early-fusion）多模态模型
将图像 token 化后与文本 token 统一处理
支持任意模态的输入输出组合

Transfusion (Meta, 2024)

在单一 Transformer 中同时执行语言建模和扩散
文本部分用 next-token prediction，图像部分用扩散损失
统一训练范式，避免模态间的信息割裂

Mixture of Transformers (MoT)

为不同模态分配专用的前馈层（FFN），共享注意力层
在匹配性能的同时减少计算开销
模态感知的稀疏激活机制

关联概念

Vision-Language Models, Diffusion Models
Tokenization, Early Fusion vs. Late Fusion
L05 Transformers