VLA-Cache

分类: 剪枝与稀疏化

VLA-Cache

定义

一种针对 VLA 模型的动态视觉 token 压缩方法,通过缓存稳定背景 token 来减少重复计算

核心要点

利用时间冗余:背景区域在连续帧间变化小,可缓存复用

动态方法,根据注意力分数判断 token 的保留/缓存

局限性:仍依赖模型注意力分数,极端压缩(30% 保留率)下在复杂任务上出现灾难性失败

代表工作

VLA-IAP: 作为对比基线,在 VLABench 30% 保留率下成功率从 46.0% 降至 0-8%

相关概念

Visual Token Pruning

KV-Cache

VLA