ImageBind
分类: 网络架构
ImageBind
定义
Meta 提出的多模态联合嵌入模型,将 6 种模态(图像、文本、音频、深度、热像、IMU)对齐到统一的嵌入空间,以图像为锚点实现跨模态零样本检索与理解
数学形式
利用图像作为”binding”模态:每种非图像模态只需与图像配对训练
通过传递性,任意两种模态之间自然获得对齐能力
核心要点
不需要所有模态的配对数据,只需每种模态与图像的配对
图像编码器基于 ViT(ViT-H),其他模态用专用编码器
涌现的零样本能力:音频→文本检索、深度→文本检索等从未显式训练过的跨模态任务
在 SSAM 等模型合并工作中作为多模态对齐的 baseline 或工具使用
代表工作
Girdhar et al., 2023 — ImageBind(CVPR 2023, Meta AI)
相关概念
ViT — ImageBind 的视觉编码器基于 ViT
低秩分解 — ImageBind 嵌入的低秩结构可用于高效合并