CLIP

分类: 网络架构

CLIP

定义

OpenAI 提出的视觉-语言对比预训练模型,通过在 4 亿图文对上学习图像和文本的联合嵌入空间,实现强大的零样本图像分类和跨模态检索能力

数学形式

L=1Ni=1N[logexp(sim(Ii,Ti)/τ)j=1Nexp(sim(Ii,Tj)/τ)]\mathcal{L} = -\frac{1}{N}\sum_{i=1}^{N}\left[\log\frac{\exp(\text{sim}(I_i, T_i)/\tau)}{\sum_{j=1}^{N}\exp(\text{sim}(I_i, T_j)/\tau)}\right]

其中 sim\text{sim} 为余弦相似度,τ\tau 为温度参数。

核心要点

双编码器架构:图像编码器(ViT 或 ResNet)+ 文本编码器(Transformer)

对比学习:拉近匹配的图文对,推远不匹配的

零样本能力:通过文本 prompt 直接分类,无需微调

广泛用于下游任务:图像生成(Stable Diffusion)、目标检测(GLIP)、视频理解等

代表工作

Radford et al. (2021): “Learning Transferable Visual Models From Natural Language Supervision” (OpenAI)

相关概念

ViT: CLIP 的视觉编码器之一

EVA-CLIP: CLIP 的增强版本

余弦相似度: CLIP 的相似度度量