CLIP
分类: 网络架构
CLIP
定义
OpenAI 提出的视觉-语言对比预训练模型,通过在 4 亿图文对上学习图像和文本的联合嵌入空间,实现强大的零样本图像分类和跨模态检索能力
数学形式
其中 为余弦相似度, 为温度参数。
核心要点
双编码器架构:图像编码器(ViT 或 ResNet)+ 文本编码器(Transformer)
对比学习:拉近匹配的图文对,推远不匹配的
零样本能力:通过文本 prompt 直接分类,无需微调
广泛用于下游任务:图像生成(Stable Diffusion)、目标检测(GLIP)、视频理解等
代表工作
Radford et al. (2021): “Learning Transferable Visual Models From Natural Language Supervision” (OpenAI)
相关概念
ViT: CLIP 的视觉编码器之一
EVA-CLIP: CLIP 的增强版本
余弦相似度: CLIP 的相似度度量