SigLIP
分类: 网络架构
SigLIP
定义
Google 提出的视觉-语言对比学习模型,用 sigmoid loss 替代 CLIP 的 softmax-based contrastive loss,消除对全局 batch 归一化的依赖
数学形式
其中 为温度参数, 为匹配标签, 为偏置项。
核心要点
用 sigmoid loss 替代 InfoNCE loss,每对样本独立计算,不需要跨 GPU 同步负样本
训练效率更高,可以使用更大的 batch size 而不受通信瓶颈限制
在 zero-shot 分类和检索任务上性能与 CLIP 相当或更优
被广泛用作多模态大模型(MLLM)的视觉编码器
代表工作
CLIP: SigLIP 的前身,使用 softmax contrastive loss
SigLIP2: SigLIP 的升级版本