DynamicViT

分类: 剪枝与稀疏化

DynamicViT

定义

动态 token 稀疏化方法,在 ViT 的中间层插入轻量级预测模块,逐层决定哪些 token 可以丢弃,实现输入自适应的推理加速

数学形式

Dl=PredictionModule(Xl){0,1}N\mathbf{D}_l = \text{PredictionModule}(\mathbf{X}_l) \in \{0, 1\}^N

其中 Dl\mathbf{D}_l 是第 ll 层的 token 保留决策,通过 Gumbel-Softmax 实现端到端可微训练

核心要点

在 ViT 的指定层插入二分类预测头,决定 token 去留

使用 Gumbel-Softmax 实现可微的离散决策

渐进式剪枝:浅层保留更多 token,深层逐步减少

在 DeiT-S 上 0.7 保留率下仅损失 0.5% top-1 精度

代表工作

Rao et al., “DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification” (NeurIPS 2021)

相关概念

EViT

Gumbel-Sigmoid

ViT