DynamicViT
分类: 剪枝与稀疏化
DynamicViT
定义
动态 token 稀疏化方法,在 ViT 的中间层插入轻量级预测模块,逐层决定哪些 token 可以丢弃,实现输入自适应的推理加速
数学形式
其中 是第 层的 token 保留决策,通过 Gumbel-Softmax 实现端到端可微训练
核心要点
在 ViT 的指定层插入二分类预测头,决定 token 去留
使用 Gumbel-Softmax 实现可微的离散决策
渐进式剪枝:浅层保留更多 token,深层逐步减少
在 DeiT-S 上 0.7 保留率下仅损失 0.5% top-1 精度
代表工作
Rao et al., “DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification” (NeurIPS 2021)