ImageBind

分类: 网络架构

ImageBind

定义

Meta 提出的多模态联合嵌入模型,将 6 种模态(图像、文本、音频、深度、热像、IMU)对齐到统一的嵌入空间,以图像为锚点实现跨模态零样本检索与理解

数学形式

L=(M1,M2)pairsLInfoNCE(fM1(x),fM2(x))\mathcal{L} = \sum_{(M_1, M_2) \in \text{pairs}} \mathcal{L}_{\text{InfoNCE}}(f_{M_1}(x), f_{M_2}(x))

利用图像作为”binding”模态:每种非图像模态只需与图像配对训练

通过传递性,任意两种模态之间自然获得对齐能力

核心要点

不需要所有模态的配对数据,只需每种模态与图像的配对

图像编码器基于 ViT(ViT-H),其他模态用专用编码器

涌现的零样本能力:音频→文本检索、深度→文本检索等从未显式训练过的跨模态任务

在 SSAM 等模型合并工作中作为多模态对齐的 baseline 或工具使用

代表工作

Girdhar et al., 2023 — ImageBind(CVPR 2023, Meta AI)

相关概念

ViT — ImageBind 的视觉编码器基于 ViT

低秩分解 — ImageBind 嵌入的低秩结构可用于高效合并