Adaptive MLP Pruning for Large Vision Transformers
Adaptive MLP Pruning for Large Vision Transformers (AMP)
一句话总结
提出 label-free 信息熵准则替代 one-hot cross entropy 做 Taylor pruning 重要性评估,结合二分搜索自适应确定每层 MLP 压缩比,在 CLIP 和 DINOv2 等大 ViT 上实现约 40% 参数/FLOPs 削减且 zero-shot 性能近无损。
核心问题
大型 ViT 中 MLP 模块占参数量 ~81%(如 EVA-CLIP-E),是压缩的核心靶点。传统 Taylor 剪枝用 one-hot CE loss 计算重要性,忽略非目标类别的预测信息 → 重要性评分不准确。
关键公式
信息熵准则(替代 one-hot CE)
实例间相似度:
预测概率(softmax over batch):
信息熵:
优势:(1) 无需标签(label-free)→ 适用于 DINOv2 等无发布损失函数的模型;(2) 利用全部预测信息而非仅正确类别。
Taylor 重要性评分
其中 使用信息熵 替代传统 CE loss。
自适应二分搜索
搜索范围 ( = 原始隐藏维度)
设定熵增量阈值
每次测试
熵增量 → 继续剪;否则回退
每层 6 次迭代,从最后一个 block 开始逐层处理
知识蒸馏恢复
剪枝只影响隐藏层维度,输出维度不变 → 可直接做特征对齐蒸馏。
关键图表
Figure 1: AMP 方法概览

左:信息熵 vs one-hot CE 的重要性评估对比。右:自适应二分搜索确定每层压缩比。
Figure 2: 信息熵 vs One-hot CE

One-hot CE 只看目标类别预测;信息熵利用所有预测可能性 → 更准确的重要性评分。
实验结果
Table 1: Zero-Shot 分类(无蒸馏 / 有蒸馏)
| 模型 | 原始 Acc | 剪枝后(无KD) | 蒸馏后 | 参数削减 |
|---|---|---|---|---|
| OpenCLIP-g | 73.0% | 53.8% | 73.1% | 39% |
| EVA-CLIP-E | 80.9% | 44.1% | 81.0% | 42% |
| EVA-CLIP-8B | 82.9% | 52.3% | 82.9% | 39% |
| DINOv2-g | — | — | 83.5% (kNN) | 45.6% |
蒸馏后完全恢复甚至超越原始性能。
Table 3: 与其他剪枝方法对比(无蒸馏)
| 方法 | OpenCLIP-g | EVA-CLIP-E |
|---|---|---|
| Random | 0.4% | 0.4% |
| norm | 1.6% | 0.7% |
| Taylor (CE) | 9.6% | 1.5% |
| NViT | 11.1% | 2.2% |
| AMP (Ours) | 53.8% | 44.1% |
AMP 在无蒸馏场景下超越其他方法 42.7个百分点。
消融实验
| 组件 | Avg Acc (6 benchmarks) |
|---|---|
| Cross Entropy (baseline) | 50.0% |
| Information Entropy | 53.8% (+3.8) |
| Uniform Taylor pruning | 7.3% |
| Binary Search | 53.8% (+46.5) |
二分搜索的贡献是压倒性的(+46.5pp)。
对我们工作的启示
- MLP 是 ViT 的参数大户:与 “Grow, Don’t Overwrite” 的发现一致(MLP 扩展效果最好)
- 信息熵作为容量指标:可以迁移到模型增长——信息熵低的层可能容量不足,需要增长
- 自适应压缩比:避免人工调参,二分搜索思路可用于自适应增长决策
- Label-free 评估:对无监督/自监督模型的结构变化(增长/剪枝)很有价值
局限性
只在 zero-shot 场景验证;fine-tuning 后差距可能缩小
信息熵阈值 的选择仍需手动
未在 LLM 上验证(仅视觉 Transformer)
蒸馏恢复需要 ImageNet-1K 训练集(虽然只占 LAION-2B 的 0.06%)
相关概念
卷积滤波器剪枝