EVA-CLIP

分类: 网络架构

EVA-CLIP

定义

基于 EVA(Exploring the Limits of Masked Visual Pre-training)架构的大规模 CLIP 系列模型,参数量从 E(4.35B)到 8B,是目前最大的开源视觉-语言对比学习模型之一。

核心要点

EVA-CLIP-E:4.35B 参数,MLP 占模型参数量约 81.1%

EVA-CLIP-8B:7.53B 参数,目前(2026)最大规模 CLIP 模型

基于 ViT 架构,输入分辨率 224×224

训练目标:CLIP(图文对比学习)

代表工作

Sun et al. (2023, 2024): EVA-CLIP 系列论文

AMP (2026): 对 EVA-CLIP-E/8B 进行 MLP 自适应剪枝,实现约 40% 参数削减

相关概念

MLP 模块

DINOv2