CLIP

分类: 网络架构

定义

OpenAI 提出的视觉-语言对比预训练模型，通过在 4 亿图文对上学习图像和文本的联合嵌入空间，实现强大的零样本图像分类和跨模态检索能力

$\mathcal{L} = -\frac{1}{N}\sum_{i=1}^{N}\left[\log\frac{\exp(\text{sim}(I_i, T_i)/\tau)}{\sum_{j=1}^{N}\exp(\text{sim}(I_i, T_j)/\tau)}\right]$

其中 $\text{sim}$ 为余弦相似度， $\tau$ 为温度参数。

双编码器架构：图像编码器（ViT 或 ResNet）+ 文本编码器（Transformer）

对比学习：拉近匹配的图文对，推远不匹配的

零样本能力：通过文本 prompt 直接分类，无需微调

广泛用于下游任务：图像生成（Stable Diffusion）、目标检测（GLIP）、视频理解等

Radford et al. (2021): “Learning Transferable Visual Models From Natural Language Supervision” (OpenAI)