EVA-CLIP
分类: 网络架构
EVA-CLIP
定义
基于 EVA(Exploring the Limits of Masked Visual Pre-training)架构的大规模 CLIP 系列模型,参数量从 E(4.35B)到 8B,是目前最大的开源视觉-语言对比学习模型之一。
核心要点
EVA-CLIP-E:4.35B 参数,MLP 占模型参数量约 81.1%
EVA-CLIP-8B:7.53B 参数,目前(2026)最大规模 CLIP 模型
基于 ViT 架构,输入分辨率 224×224
训练目标:CLIP(图文对比学习)
代表工作
Sun et al. (2023, 2024): EVA-CLIP 系列论文
AMP (2026): 对 EVA-CLIP-E/8B 进行 MLP 自适应剪枝,实现约 40% 参数削减