EVA-CLIP

分类: 网络架构

定义

基于 EVA（Exploring the Limits of Masked Visual Pre-training）架构的大规模 CLIP 系列模型，参数量从 E（4.35B）到 8B，是目前最大的开源视觉-语言对比学习模型之一。

EVA-CLIP-E：4.35B 参数，MLP 占模型参数量约 81.1%

EVA-CLIP-8B：7.53B 参数，目前（2026）最大规模 CLIP 模型

基于 ViT 架构，输入分辨率 224×224

训练目标：CLIP（图文对比学习）

Sun et al. (2023, 2024): EVA-CLIP 系列论文

AMP (2026): 对 EVA-CLIP-E/8B 进行 MLP 自适应剪枝，实现约 40% 参数削减