SigLIP2

分类: 网络架构

SigLIP2

定义

Google 发布的 SigLIP 升级版本,通过改进训练策略、数据质量和模型架构进一步提升视觉-语言对齐能力

核心要点

在 SigLIP 基础上引入多项训练改进(数据过滤、课程学习等)

提供多种规模的预训练模型(ViT-B/16 到 ViT-SO400M)

支持多分辨率输入,原生分辨率可达 384×384 或更高

被 Gemma、PaliGemma 等 Google 多模态模型采用为视觉骨干

在 zero-shot 分类、检索和下游 MLLM 集成上全面超越 SigLIP v1

代表工作

SigLIP: 前一代版本

CLIP: 对比学习视觉-语言模型的开创者

相关概念

SigLIP

CLIP

ViT

DINOv2