SigLIP2

分类: 网络架构

定义

Google 发布的 SigLIP 升级版本，通过改进训练策略、数据质量和模型架构进一步提升视觉-语言对齐能力

在 SigLIP 基础上引入多项训练改进（数据过滤、课程学习等）

提供多种规模的预训练模型（ViT-B/16 到 ViT-SO400M）

支持多分辨率输入，原生分辨率可达 384×384 或更高

被 Gemma、PaliGemma 等 Google 多模态模型采用为视觉骨干

在 zero-shot 分类、检索和下游 MLLM 集成上全面超越 SigLIP v1

SigLIP: 前一代版本

CLIP: 对比学习视觉-语言模型的开创者