EViT

分类: 剪枝与稀疏化

EViT

定义

EViT (Expediting Vision Transformers via Token Reorganization) 是一种基于 [CLS] token 注意力分数的 training-free ViT token 剪枝方法,通过识别和移除不重要的 token 来加速推理。

核心要点

利用 [CLS] token 对其他 patch token 的注意力权重作为重要性度量

不重要的 token 被 fused 到一个 placeholder token 中保留信息

属于 [CLS]-based token pruning 的代表方法

在浅层效果受限([CLS] 语义尚未成熟)

代表工作

Liang et al., “Not All Patches are What You Need: Expediting Vision Transformers via Token Reorganization” (ICLR 2022)

相关概念

Token Merging — 合并而非剪枝

ViT — 基础架构

Visual Token Pruning — 同属 token 减少策略