DynamicViT

分类: 剪枝与稀疏化

定义

动态 token 稀疏化方法，在 ViT 的中间层插入轻量级预测模块，逐层决定哪些 token 可以丢弃，实现输入自适应的推理加速

$\mathbf{D}_l = \text{PredictionModule}(\mathbf{X}_l) \in \{0, 1\}^N$

其中 $\mathbf{D}_l$ 是第 $l$ 层的 token 保留决策，通过 Gumbel-Softmax 实现端到端可微训练

在 ViT 的指定层插入二分类预测头，决定 token 去留

使用 Gumbel-Softmax 实现可微的离散决策

渐进式剪枝：浅层保留更多 token，深层逐步减少

在 DeiT-S 上 0.7 保留率下仅损失 0.5% top-1 精度

Rao et al., “DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification” (NeurIPS 2021)