SigLIP

分类: 网络架构

SigLIP

定义

Google 提出的视觉-语言对比学习模型,用 sigmoid loss 替代 CLIP 的 softmax-based contrastive loss,消除对全局 batch 归一化的依赖

数学形式

L=1ni=1nj=1nlogσ(zij(1)yij(xiTtjb))\mathcal{L} = -\frac{1}{n}\sum_{i=1}^{n}\sum_{j=1}^{n} \log \sigma\left(z_{ij}(-1)^{y_{ij}}(\mathbf{x}_i^T \mathbf{t}_j - b)\right)

其中 zijz_{ij} 为温度参数,yijy_{ij} 为匹配标签,bb 为偏置项。

核心要点

用 sigmoid loss 替代 InfoNCE loss,每对样本独立计算,不需要跨 GPU 同步负样本

训练效率更高,可以使用更大的 batch size 而不受通信瓶颈限制

在 zero-shot 分类和检索任务上性能与 CLIP 相当或更优

被广泛用作多模态大模型(MLLM)的视觉编码器

代表工作

CLIP: SigLIP 的前身,使用 softmax contrastive loss

SigLIP2: SigLIP 的升级版本

相关概念

CLIP

ViT

EVA-CLIP