SigLIP

分类: 网络架构

定义

Google 提出的视觉-语言对比学习模型，用 sigmoid loss 替代 CLIP 的 softmax-based contrastive loss，消除对全局 batch 归一化的依赖

$\mathcal{L} = -\frac{1}{n}\sum_{i=1}^{n}\sum_{j=1}^{n} \log \sigma\left(z_{ij}(-1)^{y_{ij}}(\mathbf{x}_i^T \mathbf{t}_j - b)\right)$

其中 $z_{ij}$ 为温度参数， $y_{ij}$ 为匹配标签， $b$ 为偏置项。

用 sigmoid loss 替代 InfoNCE loss，每对样本独立计算，不需要跨 GPU 同步负样本

训练效率更高，可以使用更大的 batch size 而不受通信瓶颈限制

在 zero-shot 分类和检索任务上性能与 CLIP 相当或更优

被广泛用作多模态大模型（MLLM）的视觉编码器

CLIP: SigLIP 的前身，使用 softmax contrastive loss

SigLIP2: SigLIP 的升级版本