ImageBind

分类: 网络架构

定义

Meta 提出的多模态联合嵌入模型，将 6 种模态（图像、文本、音频、深度、热像、IMU）对齐到统一的嵌入空间，以图像为锚点实现跨模态零样本检索与理解

$\mathcal{L} = \sum_{(M_1, M_2) \in \text{pairs}} \mathcal{L}_{\text{InfoNCE}}(f_{M_1}(x), f_{M_2}(x))$

利用图像作为”binding”模态：每种非图像模态只需与图像配对训练

通过传递性，任意两种模态之间自然获得对齐能力

不需要所有模态的配对数据，只需每种模态与图像的配对

图像编码器基于 ViT（ViT-H），其他模态用专用编码器

涌现的零样本能力：音频→文本检索、深度→文本检索等从未显式训练过的跨模态任务

在 SSAM 等模型合并工作中作为多模态对齐的 baseline 或工具使用

Girdhar et al., 2023 — ImageBind（CVPR 2023, Meta AI）