VLA-IAP: Training-Free Visual Token Pruning via Interaction Alignment for Vision-Language-Action Models
论文笔记:VLA-IAP: Training-Free Visual Token Pruning via Interaction Alignment for Vision-Language-Action Models
元信息
| 项目 | 内容 |
|---|---|
| 机构 | HKUST, CUHK, South China Normal Univ., NUDT, USTB |
| 日期 | March 2026 |
| 项目主页 | VLA-IAP.com |
| 对比基线 | FastV, SparseVLM, VLA-Cache, EfficientVLA |
| 链接 | arXiv |
一句话总结
提出 Interaction-First 范式的无训练视觉 token 剪枝方法,通过几何先验 + 语义-运动 IoU 对齐自适应切换保守/激进剪枝模式,在 VLA 模型上实现 1.25-1.54× 加速且不损失性能。
核心贡献
Interaction-First 范式: 将视觉压缩从传统的 Perception-First(依赖注意力语义显著性)转向显式的交互优先对齐,独立于 VLM 的注意力偏置
几何先验机制 (Geometric Prior): 通过轻量级 Sobel 边缘检测 提取结构锚点,保护语义弱但操作关键的边界区域不被错误剪枝
交互对齐动态策略 (Interaction-Aligned Dynamic Strategy): 利用语义-运动掩码的 IoU 作为门控信号,自适应切换 Conservative/Aggressive 剪枝模式
问题背景
要解决的问题
VLA 模型(如 OpenVLA, π₀)处理高分辨率多视角输入时推理延迟大,通常低于 5 Hz,无法满足闭环机器人控制的实时性需求
视觉 token 序列过长是主要瓶颈
现有方法的局限
静态方法(FastV, SparseVLM)依赖注意力分数做一次性过滤,对早期语义未对齐的情况敏感
动态方法(VLA-Cache, EfficientVLA)虽引入时空和动作线索,但仍依赖模型注意力分数
核心缺陷: 如果预训练模型本身忽略了某些几何细节(缺乏物理连续性),基于其注意力分数的剪枝会继承并放大这些错误
现有方法遵循 Perception-First 偏置,将视觉理解等同于语义理解,忽视物理可供性 (affordance)
本文的动机
机器人操作的关键区域不一定是语义显著区域——纹理贫乏但结构关键的交互锚点(如物体边缘、抓取点)可能被语义剪枝错误丢弃
需要一种独立于模型注意力的显式物理先验来保护结构锚点
语义意图和物理运动的空间对齐程度可作为剪枝强度的动态指标
方法详解
模型架构
VLA-IAP 是一个 无训练的即插即用 视觉 token 剪枝框架:
- 输入: 语言指令 + 当前观测图像 + 历史帧
- 视觉编码器: 提取 dense token 序列 ,其中
- 三路并行先验: Geometric Prior + Semantic Prior + Motion Prior
- 交互对齐策略: IoU 门控的 Conservative/Aggressive 模式切换
- 输出: 压缩后的视觉 token 序列 送入 LLM 进行动作推理
- 兼容 VLA: OpenVLA-OFT, DreamVLA, π₀, π₀.₅
核心模块
模块1: 几何先验 (Geometric Prior for Edge Enhancement)
设计动机: 独立于 VLM 语义空间,提取纯物理轮廓作为结构锚点,防止操作关键边界被误剪
具体实现:
- 将原始图像转为灰度图 ,避免颜色语义干扰
- 使用 Sobel 边缘检测 算子提取水平/垂直方向梯度
- 计算像素级边缘强度并聚合到 token 级别
- 归一化后得到边缘增强先验向量
- 越大表示物理可供性越高(尖锐几何变化、清晰物体边界)
模块2: 语义先验 (Semantic Prior)
设计动机: 建立语言指令和视觉观测之间的基础意图对齐
具体实现:
模块3: 运动先验 (Motion Prior)
设计动机: 直接从视觉特征空间构建运动先验,而非依赖动作空间信号(动作预测不稳定且对线性趋势敏感)
具体实现:
- 二阶时间差分: 计算连续帧的加速度信号,有效过滤相机平移等线性背景漂移
- 形态学闭合 + 高斯平滑: 增强运动响应区域的空间连通性
- 指数移动平均历史累积: 用衰减因子 平滑瞬时检测噪声
- 最终得到时间显著性
模块4: 交互对齐动态策略 (Interaction-Aligned Dynamic Strategy)
设计动机: 利用语义-运动一致性判断操作阶段,自适应调整剪枝强度
具体实现:
- 将 和 二值化为掩码 ,
- 计算
- Conservative Mode (): 探索阶段,双弱排除——仅当语义和运动信号同时低于阈值才标记为背景
- Aggressive Mode (): 交互锁定阶段,语义掩码收缩到峰值中心 附近,与运动区域取并集
模块5: 最终视觉 Token 选择
融合几何先验,计算综合优先级分数
保留语义-运动模块选中的 token ,以及综合分数超过阈值 的 token
结果序列与文本指令拼接后送入 LLM
关键公式
公式1: 方向梯度
含义: 通过 Sobel 算子在灰度图上计算水平和垂直方向的梯度响应
符号说明:
- : 水平/垂直方向梯度响应
- : 灰度图
- : 方向卷积核
- : 2D 卷积运算
公式2: 边缘强度
含义: 计算像素 处的梯度幅值,反映边缘强度
符号说明:
- : 像素 的边缘强度
公式3: Patch 级几何分数
含义: 将像素级边缘响应聚合到 token 级,计算每个 patch 区域内的平均边缘强度
符号说明:
- : 第 个 token 的几何结构分数
- : 第 个 token 对应的像素区域
- : token 总数
公式4: 跨模态语义注意力
含义: 通过温度缩放的点积相似度计算视觉 token 与文本指令的语义相关度
符号说明:
- : 第 个 token 的跨模态注意力概率
- : 归一化的视觉特征
- : 归一化的文本指令特征
- : 温度系数
公式5: 二阶时间差分
含义: 计算特征演化的加速度信号,作为离散二阶导数的近似,有效过滤线性背景漂移
符号说明:
- : 时刻 第 个 token 的运动变化量
- : 时刻 第 个 token 的视觉特征向量
- : 特征维度上的 范数
公式6: 运动历史累积
含义: 通过指数移动平均平滑瞬时运动检测噪声
符号说明:
- : 时刻 的累积运动历史
- : 当前帧运动响应
- : 衰减因子(如 0.7)
公式7: 形态学闭合 + 高斯平滑
含义: 通过形态学闭合增强运动区域的空间连通性,再用高斯滤波平滑
符号说明:
- : 形态学膨胀/腐蚀算子
- : 结构元素
- : 高斯平滑滤波器
公式8: 语义掩码二值化
含义: 使用均值+标准差的自适应阈值将连续语义分数转为二值掩码
符号说明:
- : 语义重要性二值掩码
- : 语义分数的均值和标准差
- : 灵敏度系数
- : 指示函数
公式9: 运动掩码二值化
含义: 同公式8,对运动分数做自适应二值化
符号说明:
- : 运动重要性二值掩码
公式10: 背景排除掩码 (Conservative Mode)
含义: 双弱排除策略——仅当语义和运动信号同时低于阈值时,才标记为纯背景
符号说明:
- : 负数背景排除系数
- : 逻辑 AND
公式11: 语义核心区域 (Aggressive Mode)
含义: 高置信度阶段,取收缩后的语义核心区域与完整运动区域的并集
符号说明:
- : 距语义峰值 半径 内的收缩语义掩码
- : 语义响应峰值位置
公式12: 自适应模式切换
含义: 根据语义-运动对齐度(IoU)动态选择保守或激进剪枝模式
符号说明:
- : 语义掩码与运动掩码的交并比
- : 模式切换阈值
公式13: 综合优先级分数
含义: 融合语义、运动、几何三路先验为统一的 token 重要性排序
符号说明:
- : 几何先验权重系数(默认 1.0)
- : 第 个 token 的几何边缘强度
公式14: 最终 Token 选择
含义: 保留语义-运动模块选中的 token 以及综合分数超过阈值的高边缘 token
符号说明:
- : 最低边缘强度阈值
关键图表
Figure 1: Perception-First vs. Interaction-First 对比

说明: 对比传统 Perception-First 范式(依赖 VLM 注意力分数,可能丢弃操作关键区域)和本文 Interaction-First 范式(通过几何先验和交互对齐独立保护结构锚点)的核心区别。
Figure 2: VLA-IAP 方法总览

说明: VLA-IAP 整体架构。视觉编码器输出 dense token 序列后,三路并行计算 Geometric Prior(Sobel 边缘检测)、Semantic Prior(跨模态注意力)和 Motion Prior(二阶时间差分 + 形态学平滑)。Interaction-Aligned Strategy 通过 IoU 门控切换 Conservative/Aggressive 模式,最终融合几何先验输出压缩后的 token 序列。
Figure 3: 评估基准概览

说明: 展示三大仿真基准(LIBERO、CALVIN、VLABench)和真实机器人场景的任务多样性,涵盖空间推理、物体泛化、目标条件、长时序等维度。
Figure 4: 真实机器人实验平台

说明: 双臂机器人系统,配备全局相机和腕部相机。包含三类操作任务:简单抓放、长时序多步骤、双臂协同垃圾分拣。
Figure 5: 交互对齐剪枝过程可视化 (LIBERO)

说明: 动态剪枝过程:初始阶段语义-运动对齐度低(IoU=0),触发 Conservative 模式保留大部分物体;随着机器人接近目标,掩码交叠增大,激活 Aggressive 模式大幅压缩视觉 token。展示了自适应机制在不同操作阶段的行为差异。
Figure 6: 真实世界任务执行演示

说明: 三类操作任务的成功执行序列:简单抓放(碗→盘子)、长时序(碗+面包多步操作)、双臂协同(垃圾分拣),确认了不同相机视角下的鲁棒性。
Figure 7: 几何先验可视化 (VLABench)

说明: 边缘增强效果可视化。Sobel 算子成功提取物体轮廓和操作关键边界,即使这些区域在语义注意力中响应较弱。
Figure 8: 几何先验可视化 (LIBERO 腕部相机)

说明: 从腕部相机视角展示几何先验效果,验证了在不同相机视角和场景下边缘检测的稳定性。
Figure 9: LLM 注意力与剪枝对齐分析 (VLABench)

说明: 分析 LLM 注意力分布与 VLA-IAP 剪枝选择的对齐程度,验证保留的 token 确实是模型关注的关键区域。
Table 1: 跨模型综合性能对比
| Method | DreamVLA LIBERO (%) | CALVIN | π₀ LIBERO (%) | VLABench (%) | Avg | ||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Spa. | Obj. | Goal | Long | Seq.Len | Spa. | Obj. | Goal | Long | Con. | Paint. | Poker. | ||
| Vanilla | 84.5 | 91.5 | 89.5 | 89.5 | 4.43 | 94.2 | 98.2 | 94.6 | 82.8 | 56.0 | 30.0 | 52.0 | 46.0 |
| 70% Retention | |||||||||||||
| FastV | 86.5 | 86.5 | 84.0 | 87.5 | 4.40 | 93.5 | 96.1 | 92.2 | 80.5 | 44.0 | 28.0 | 32.0 | 34.6 |
| SparseVLM | 86.5 | 85.0 | 91.5 | 86.5 | 4.40 | 93.8 | 94.8 | 92.5 | 80.1 | 50.0 | 32.0 | 26.0 | 36.0 |
| DivPrune | 85.5 | 90.5 | 88.0 | 85.5 | 4.42 | 91.8 | 92.5 | 91.4 | 79.2 | 6.0 | 22.0 | 2.0 | 10.0 |
| VLA-Cache | 88.0 | 89.5 | 89.5 | 87.5 | 4.42 | 94.5 | 97.8 | 94.5 | 82.6 | 42.0 | 32.0 | 48.0 | 40.7 |
| VLA-IAP | 91.5 | 93.5 | 92.5 | 90.5 | 4.45 | 94.8 | 98.5 | 95.2 | 84.2 | 55.0 | 36.0 | 48.0 | 46.3 |
| 50% Retention | |||||||||||||
| FastV | 84.5 | 81.5 | 84.0 | 86.5 | 4.21 | 92.4 | 95.3 | 91.0 | 79.4 | 16.0 | 22.0 | 2.0 | 13.3 |
| SparseVLM | 84.5 | 83.5 | 90.5 | 86.5 | 4.40 | 92.0 | 93.8 | 90.7 | 77.6 | 14.0 | 30.0 | 2.0 | 15.3 |
| DivPrune | 84.5 | 92.0 | 84.5 | 85.0 | 4.32 | 88.8 | 92.0 | 89.8 | 75.3 | 4.0 | 22.0 | 2.0 | 9.3 |
| VLA-Cache | 87.5 | 88.0 | 86.0 | 87.5 | 4.39 | 94.1 | 95.9 | 94.8 | 82.0 | 16.8 | 30.0 | 11.3 | 19.3 |
| VLA-IAP | 90.5 | 92.0 | 90.5 | 89.7 | 4.44 | 94.5 | 98.3 | 94.5 | 83.4 | 48.9 | 32.0 | 42.0 | 41.0 |
| 30% Retention | |||||||||||||
| FastV | 79.0 | 56.5 | 73.0 | 81.5 | 3.88 | 86.8 | 80.7 | 86.2 | 73.9 | 0.0 | 22.0 | 0.0 | 7.3 |
| SparseVLM | 76.5 | 43.0 | 79.0 | 80.5 | 4.11 | 87.1 | 86.2 | 82.5 | 71.9 | 18.0 | 26.0 | 2.0 | 15.3 |
| DivPrune | 71.0 | 87.5 | 81.5 | 80.5 | 4.19 | 82.1 | 72.2 | 79.4 | 66.0 | 4.0 | 16.0 | 0.0 | 6.7 |
| VLA-Cache | 81.5 | 81.5 | 79.2 | 79.5 | 4.17 | 86.5 | 87.2 | 85.6 | 72.6 | 0.0 | 24.0 | 0.0 | 8.0 |
| VLA-IAP | 87.5 | 89.5 | 89.2 | 89.1 | 4.42 | 93.2 | 97.6 | 94.2 | 82.6 | 46.0 | 32.0 | 22.0 | 33.3 |
表格说明: 在所有保留率下 VLA-IAP 均全面领先。关键发现: 30% 保留率下 VLABench 任务,FastV/VLA-Cache 出现灾难性失败(0-8%),VLA-IAP 仍维持 33.3%,验证 Interaction-First 范式对结构锚点的保护能力。
Table 2: OpenVLA-OFT 在 LIBERO 上的结果
| Method | CKPT | Spa. | Obj. | Goal | Long | Avg. | Speedup |
|---|---|---|---|---|---|---|---|
| Part I: VLA Models | |||||||
| OpenVLA | 7B | 84.7 | 88.4 | 79.2 | 53.7 | 76.5 | — |
| WorldVLA | 7B | 87.6 | 96.2 | 83.4 | 60.0 | 81.8 | — |
| NORA | 3B | 85.6 | 87.8 | 77.0 | 45.0 | 73.9 | — |
| SmolVLA | 2.2B | 93.0 | 94.0 | 91.0 | 77.0 | 88.8 | — |
| CogACT | 7B | 97.2 | 98.0 | 90.2 | 88.8 | 93.6 | — |
| OpenVLA-OFT | 7B | 98.6 | 98.2 | 96.6 | 94.8 | 97.1 | 1.00× |
| Part II: Pruning Methods | |||||||
| VLA-ADP (70%) | 7B | 99.0 | 98.2 | 96.8 | 91.2 | 96.3 | 1.13× |
| VLA-ADP (50%) | 7B | 99.4 | 98.0 | 96.4 | 91.2 | 96.3 | 1.23× |
| VLA-ADP (30%) | 7B | 97.6 | 98.4 | 97.4 | 84.2 | 94.4 | 1.35× |
| FastV | 7B | 96.8 | 81.0 | 96.4 | 73.0 | 86.8 | 1.24× |
| VLA-Cache | 7B | 98.3 | 97.5 | 98.3 | 95.4 | 97.4 | 1.30× |
| SpecPrune-VLA | 7B | 98.2 | 96.3 | 97.7 | 94.0 | 96.6 | 1.46× |
| TeamVLA | 7B | 99.2 | 96.5 | 97.0 | 93.8 | 96.6 | 1.51× |
| EfficientVLA | 7B | 96.5 | 91.1 | 96.0 | 72.1 | 88.9 | 1.54× |
| VLA-IAP (70%) | 7B | 97.6 | 99.6 | 98.4 | 95.6 | 97.8 | 1.25× |
| VLA-IAP (50%) | 7B | 97.3 | 99.1 | 98.2 | 95.2 | 97.5 | 1.37× |
| VLA-IAP (30%) | 7B | 96.6 | 98.8 | 98.0 | 94.8 | 97.1 | 1.54× |
表格说明: VLA-IAP 在 70% 保留率下达到 SOTA 97.8%(超过未剪枝 baseline 97.1%)。30% 保留率下仍维持 97.1%,与未剪枝完全相同,同时获得 1.54× 加速。EfficientVLA 虽有同等加速比但性能严重退化(88.9%)。
Table 3: 逐组件消融实验
| Method | SR (%) | Latency (ms) | Speedup |
|---|---|---|---|
| OpenVLA-OFT (Base) | 94.5 | 123.2 | 1.00× |
| Step 1: 时空剪枝 | |||
| + Spatiotemp. (k=0.3, γ=0.7) | 93.1 | 77.9 | 1.58× |
| + Spatiotemp. (k=0.5, γ=0.7) | 94.8 | 86.7 | 1.42× |
| + Spatiotemp. (k=0.7, γ=0.7) | 92.5 | 94.8 | 1.30× |
| Step 2: IoU 门控切换 | |||
| + IoU (θ_iou=0.02) | 95.1 | 78.9 | 1.56× |
| + IoU (θ_iou=0.05) | 97.2 | 93.3 | 1.32× |
| + IoU (θ_iou=0.10) | 95.5 | 97.0 | 1.27× |
| Step 3: 边缘增强 (最终) | |||
| + Edge (θ_iou=0.05, w_edge=1.0) | 97.8 | 98.6 | 1.25× |
| + Edge (θ_iou=0.05, w_edge=0.5) | 97.2 | 97.0 | 1.27× |
| + Edge (θ_iou=0.05, w_edge=1.5) | 97.4 | 96.3 | 1.28× |
| + Edge (θ_iou=0.02, w_edge=1.0) | 97.1 | 80.0 | 1.54× |
关键发现: 每个组件渐进式提升性能——时空剪枝提供基础加速,IoU 门控显著提升成功率(+2.4%),边缘增强进一步到 97.8%。, 为最优配置。
Table 4: π₀ 上的内存和运行时分析
| Method | 70% | 50% | 30% | |||
|---|---|---|---|---|---|---|
| Mem (GB) | CUDA (ms) | Mem (GB) | CUDA (ms) | Mem (GB) | CUDA (ms) | |
| Vanilla | 7.11 | 98.03 | 7.11 | 98.03 | 7.11 | 98.03 |
| FastV | 7.018 | 81.69 | 6.989 | 74.27 | 6.968 | 69.52 |
| SparseVLM | 7.003 | 81.02 | 6.961 | 72.61 | 6.954 | 70.53 |
| DivPrune | 6.961 | 79.69 | 6.925 | 73.16 | 6.911 | 69.04 |
| VLA-Cache | 7.082 | 88.32 | 7.067 | 83.79 | 7.032 | 79.69 |
| VLA-IAP | 6.998 | 77.96 | 6.932 | 72.08 | 6.882 | 65.79 |
表格说明: VLA-IAP 在所有保留率下实现最低延迟和最低内存占用。30% 保留率下 65.79ms(vs. Vanilla 98.03ms),内存降至 6.882GB。
Table 5: 真实机器人实验
| 指标 | Simple | Long | Dual-Arm | Avg. |
|---|---|---|---|---|
| 成功率 (%) | ||||
| π₀.₅ (base) | 80.0 | 64.0 | 44.0 | 62.7 |
| VLA-IAP | 84.0 | 68.0 | 44.0 | 65.3 |
| 延迟 (ms) | ||||
| π₀.₅ (base) | 88.1 | — | 124.3 | — |
| VLA-IAP | 59.7 (1.48×) | — | 84.6 (1.47×) | — |
表格说明: 真实场景验证——VLA-IAP 在提升成功率的同时(+2.6%)实现 ~1.48× 延迟降低。
Table 6: 跨模型硬件效率分析
| Method | DreamVLA CALVIN | DreamVLA LIBERO | π₀ LIBERO | ||||||
|---|---|---|---|---|---|---|---|---|---|
| Mem (GB) | Time (ms) | Ratio | Mem (GB) | Time (ms) | Ratio | Mem (GB) | Time (ms) | Ratio | |
| Vanilla | 2.810 | 120.28 | — | 2.661 | 101.47 | — | 6.214 | 94.13 | — |
| FastV | 2.771 | 99.40 | 1.21× | 2.626 | 84.55 | 1.20× | 6.135 | 79.44 | 1.18× |
| SparseVLM | 2.764 | 99.41 | 1.21× | 2.621 | 83.85 | 1.21× | 6.117 | 79.80 | 1.18× |
| DivPrune | 2.756 | 97.79 | 1.23× | 2.615 | 82.49 | 1.23× | 6.109 | 76.53 | 1.23× |
| VLA-Cache | 2.798 | 102.43 | 1.17× | 2.634 | 85.99 | 1.18× | 6.185 | 84.85 | 1.11× |
| VLA-IAP | 2.747 | 98.21 | 1.22× | 2.610 | 81.89 | 1.24× | 6.098 | 75.44 | 1.25× |
表格说明: 跨三个不同配置验证了 VLA-IAP 的通用硬件效率提升(1.22-1.25×)。
Table 7: VLABench 细粒度任务性能
| Method | Con. | Flower | Book | Chem. | Drink | Fruit | Mahj. | Paint. | Poker | Toy | Avg. |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 70% Retention | |||||||||||
| Baseline | 56.0 | 20.0 | 54.0 | 36.0 | 42.0 | 42.0 | 32.0 | 30.0 | 52.0 | 28.0 | 39.2 |
| FastV | 44.0 | 2.0 | 38.8 | 35.4 | 18.0 | 2.0 | 2.1 | 28.0 | 32.0 | 2.0 | 20.4 |
| SparseVLM | 50.0 | 0.0 | 52.2 | 28.6 | 28.6 | 4.0 | 8.1 | 32.0 | 26.0 | 4.0 | 23.4 |
| DivPrune | 6.0 | 0.0 | 8.0 | 6.0 | 12.2 | 2.0 | 2.0 | 22.0 | 2.0 | 2.0 | 6.2 |
| VLA-Cache | 42.0 | 10.0 | 42.9 | 30.0 | 32.0 | 30.0 | 24.4 | 32.0 | 48.0 | 6.0 | 29.7 |
| VLA-IAP | 55.0 | 12.0 | 40.4 | 41.7 | 42.0 | 26.0 | 26.1 | 36.0 | 48.0 | 10.0 | 33.7 |
| 50% Retention | |||||||||||
| FastV | 16.0 | 0.0 | 25.6 | 8.2 | 18.4 | 0.0 | 2.1 | 22.0 | 2.0 | 0.0 | 9.4 |
| SparseVLM | 12.0 | 0.0 | 25.6 | 4.1 | 20.0 | 0.0 | 4.3 | 30.0 | 2.0 | 0.0 | 9.8 |
| DivPrune | 4.0 | 0.0 | 22.0 | 10.0 | 16.3 | 0.0 | 4.3 | 22.0 | 2.0 | 0.0 | 8.1 |
| VLA-Cache | 16.8 | 0.0 | 23.9 | 14.0 | 12.0 | 0.0 | 8.2 | 30.0 | 11.3 | 0.0 | 11.6 |
| VLA-IAP | 48.9 | 6.0 | 29.8 | 27.1 | 28.6 | 14.0 | 10.6 | 32.0 | 42.0 | 6.0 | 24.5 |
| 30% Retention | |||||||||||
| FastV | 0.0 | 0.0 | 21.5 | 0.0 | 4.3 | 0.0 | 2.1 | 22.0 | 0.0 | 0.0 | 5.0 |
| SparseVLM | 18.0 | 0.0 | 6.5 | 0.0 | 12.2 | 0.0 | 0.0 | 26.0 | 2.0 | 0.0 | 6.5 |
| DivPrune | 4.0 | 0.0 | 10.6 | 0.0 | 4.2 | 0.0 | 4.1 | 16.0 | 0.0 | 0.0 | 3.9 |
| VLA-Cache | 16.8 | 0.0 | 4.0 | 0.0 | 10.0 | 0.0 | 0.0 | 24.0 | 0.0 | 0.0 | 5.5 |
| VLA-IAP | 46.0 | 4.0 | 21.7 | 8.2 | 16.3 | 8.2 | 8.5 | 32.0 | 22.0 | 4.0 | 17.1 |
表格说明: VLABench 细粒度任务下,VLA-IAP 在几乎所有子任务上领先,尤其在 Construction(需精细操作边界)和 Poker(需精确定位)任务上优势显著。
Table 8: 边缘检测算子消融
| Method | Spa. | Obj. | Goal | Long | Avg. | Latency (ms) |
|---|---|---|---|---|---|---|
| OpenVLA-OFT (Base) | 98.6 | 98.2 | 96.6 | 94.8 | 97.1 | 123.2 |
| VLA-IAP (Canny) | 97.2 | 98.8 | 97.4 | 93.8 | 96.8 | 104.5 |
| VLA-IAP (HED) | 97.4 | 99.6 | 98.2 | 94.4 | 97.4 | 125.1 |
| VLA-IAP (BDCN) | 97.6 | 99.0 | 98.2 | 95.2 | 97.5 | 132.8 |
| VLA-IAP (Sobel) | 97.6 | 99.6 | 98.4 | 95.6 | 97.8 | 98.6 |
关键发现: Sobel 在性能(97.8%)和延迟(98.6ms)上均为最优。HED/BDCN 等深度学习边缘检测器虽性能接近但引入额外延迟,不适合实时场景。Canny 性能略低(96.8%)。验证了轻量级传统算子在此任务上的有效性。
实验
数据集
| 数据集 | 规模 | 特点 | 用途 |
|---|---|---|---|
| LIBERO | 4 子任务集 | 空间/物体/目标/长时序泛化 | 仿真主评估 |
| CALVIN | A/B/C/D 4个环境 | 长时序语言条件策略学习 | 仿真评估 |
| VLABench | 100类任务, 2000+ 3D物体 | 复杂长时序推理, 强域随机化 | 仿真挑战评估 |
| Real Robot | 3类任务 | 双臂, 全局+腕部相机 | 真实场景验证 |
实现细节
VLA Backbone: OpenVLA-OFT (7B), DreamVLA, π₀, π₀.₅
边缘检测: Sobel 算子( 核)
关键超参数:
- 温度系数
- 运动衰减因子
- 灵敏度系数 (最优)
- IoU 阈值 (最优)
- 边缘权重 (最优)
硬件: NVIDIA A100
保留率: 70% / 50% / 30%
可视化结果
Figure 5 展示了 Conservative → Aggressive 模式的动态切换过程
Figure 7-8 验证了几何先验在不同视角下的边缘检测鲁棒性
Figure 9 确认了剪枝选择与 LLM 注意力分布的高度一致性
批判性思考
优点
无训练即插即用: 不需要重新训练或微调 VLA 模型,直接在推理时应用
范式创新: Interaction-First 思路比 Perception-First 更符合机器人操作的物理本质,独立于 VLM 的语义偏置
鲁棒的极端压缩: 30% 保留率下仍维持 97.1%(完全匹配未剪枝性能),这在同类方法中非常罕见
跨模型泛化: 在 4 种不同 VLA 架构上验证有效性
真实场景验证: 不仅是仿真,还有真实双臂机器人实验
局限性
Sobel 算子的局限: 对弱纹理、半透明物体的边缘检测可能不够鲁棒
IoU 阈值敏感性: 从消融实验看, 在 0.02-0.10 间对性能和加速比影响较大,可能需要针对不同场景调参
二阶时间差分需要历史帧: 前两帧无法计算运动先验,对任务初始阶段可能有影响
VLABench 绝对性能仍有差距: 虽然远超其他剪枝方法,但在 30% 保留率下 VLABench 成功率(17.1%)远低于未剪枝 baseline(39.2%),说明复杂任务下激进剪枝仍有信息损失
潜在改进方向
将几何先验从 Sobel 升级为轻量级学习型边缘检测(如蒸馏后的 HED),在不显著增加延迟的前提下提升边缘质量
探索自适应保留率——根据场景复杂度动态调整而非固定比例
结合 KV-Cache 压缩进一步加速 LLM 推理部分
在更多真实场景和更长时间尺度的任务上验证鲁棒性
可复现性评估
- 代码开源(项目主页 VLA-IAP.com 已公布)
- 预训练模型(无训练方法,不需要额外模型)
- 训练细节完整(超参数、消融实验详细)
- 数据集可获取(LIBERO, CALVIN, VLABench 均公开)
关联笔记
基于
OpenVLA: 主要验证的 VLA backbone
FastV: VLM 视觉 token 剪枝的先驱方法
VLA-Cache: 动态 VLA token 缓存方法
对比
FastV: 静态注意力剪枝,VLA 场景下性能退化严重
SparseVLM: 稀疏注意力方法,同样依赖模型注意力偏置
EfficientVLA: 动态剪枝,1.54× 加速但性能退化严重(88.9%)
VLA-Cache: 背景缓存策略,极端压缩下灾难性失败
方法相关
Visual Token Pruning: 核心技术——视觉 token 剪枝
Sobel 边缘检测: 几何先验的核心——轻量级边缘检测
IoU: 交互对齐策略的门控信号
EMA: 运动历史累积
形态学操作: 运动区域空间连通性增强
硬件/数据相关
LIBERO: 主要仿真评估基准
速查卡片
VLA-IAP: Training-Free Visual Token Pruning via Interaction Alignment for Vision-Language-Action Models
- 核心: Interaction-First 范式,通过几何先验 + 语义-运动 IoU 对齐实现 VLA 模型的无训练视觉 token 剪枝
- 方法: Sobel 边缘检测保护结构锚点 + 二阶时间差分运动先验 + IoU 门控 Conservative/Aggressive 模式切换
- 结果: LIBERO 97.8% 成功率 + 1.25× 加速(70%保留);97.1% + 1.54× 加速(30%保留)
- 代码: VLA-IAP.com
笔记创建时间: 2026-03-26