VLA-IAP: Training-Free Visual Token Pruning via Interaction Alignment for Vision-Language-Action Models

作者: Jintao Cheng, Haozhe Wang, Weibin Li, Gang Wang, Yipu Zhang, Xiaoyu Tang, Jin Wu, Xieyuanli Chen, Yunhui Liu, Wei Zhang 年份: 2026 会议: arXiv 分类: 剪枝与稀疏化

论文笔记:VLA-IAP: Training-Free Visual Token Pruning via Interaction Alignment for Vision-Language-Action Models

元信息

项目内容
机构HKUST, CUHK, South China Normal Univ., NUDT, USTB
日期March 2026
项目主页VLA-IAP.com
对比基线FastV, SparseVLM, VLA-Cache, EfficientVLA
链接arXiv

一句话总结

提出 Interaction-First 范式的无训练视觉 token 剪枝方法,通过几何先验 + 语义-运动 IoU 对齐自适应切换保守/激进剪枝模式,在 VLA 模型上实现 1.25-1.54× 加速且不损失性能。

核心贡献

Interaction-First 范式: 将视觉压缩从传统的 Perception-First(依赖注意力语义显著性)转向显式的交互优先对齐,独立于 VLM 的注意力偏置

几何先验机制 (Geometric Prior): 通过轻量级 Sobel 边缘检测 提取结构锚点,保护语义弱但操作关键的边界区域不被错误剪枝

交互对齐动态策略 (Interaction-Aligned Dynamic Strategy): 利用语义-运动掩码的 IoU 作为门控信号,自适应切换 Conservative/Aggressive 剪枝模式

问题背景

要解决的问题

VLA 模型(如 OpenVLA, π₀)处理高分辨率多视角输入时推理延迟大,通常低于 5 Hz,无法满足闭环机器人控制的实时性需求

视觉 token 序列过长是主要瓶颈

现有方法的局限

静态方法FastV, SparseVLM)依赖注意力分数做一次性过滤,对早期语义未对齐的情况敏感

动态方法VLA-Cache, EfficientVLA)虽引入时空和动作线索,但仍依赖模型注意力分数

核心缺陷: 如果预训练模型本身忽略了某些几何细节(缺乏物理连续性),基于其注意力分数的剪枝会继承并放大这些错误

现有方法遵循 Perception-First 偏置,将视觉理解等同于语义理解,忽视物理可供性 (affordance)

本文的动机

机器人操作的关键区域不一定是语义显著区域——纹理贫乏但结构关键的交互锚点(如物体边缘、抓取点)可能被语义剪枝错误丢弃

需要一种独立于模型注意力的显式物理先验来保护结构锚点

语义意图和物理运动的空间对齐程度可作为剪枝强度的动态指标

方法详解

模型架构

VLA-IAP 是一个 无训练的即插即用 视觉 token 剪枝框架:

  • 输入: 语言指令 ll + 当前观测图像 IRH×W×3I \in \mathbb{R}^{H \times W \times 3} + 历史帧
  • 视觉编码器: 提取 dense token 序列 XvisRN×DX_{\text{vis}} \in \mathbb{R}^{N \times D},其中 N=(H/P)×(W/P)N = (H/P) \times (W/P)
  • 三路并行先验: Geometric Prior + Semantic Prior + Motion Prior
  • 交互对齐策略: IoU 门控的 Conservative/Aggressive 模式切换
  • 输出: 压缩后的视觉 token 序列 X^t\hat{X}_t 送入 LLM 进行动作推理
  • 兼容 VLA: OpenVLA-OFT, DreamVLA, π₀, π₀.₅

核心模块

模块1: 几何先验 (Geometric Prior for Edge Enhancement)

设计动机: 独立于 VLM 语义空间,提取纯物理轮廓作为结构锚点,防止操作关键边界被误剪

具体实现:

  • 将原始图像转为灰度图 IgrayI_{\text{gray}},避免颜色语义干扰
  • 使用 Sobel 边缘检测 算子提取水平/垂直方向梯度
  • 计算像素级边缘强度并聚合到 token 级别
  • 归一化后得到边缘增强先验向量 E=[E~1,E~2,,E~N]\mathbf{E} = [\tilde{E}_1, \tilde{E}_2, \dots, \tilde{E}_N]
  • E~i\tilde{E}_i 越大表示物理可供性越高(尖锐几何变化、清晰物体边界)

模块2: 语义先验 (Semantic Prior)

设计动机: 建立语言指令和视觉观测之间的基础意图对齐

具体实现:

  • 对视觉特征 XvisX_{\text{vis}} 和文本指令特征 e^text\hat{e}_{\text{text}} 做空间中心化 + L2L_2 归一化
  • 通过 温度缩放 的点积相似度(τ=0.01\tau = 0.01)计算 跨模态注意力 分布
  • 空间平均池化平滑局部噪声 + min-max 归一化,得到语义显著性 Ssem[0,1]N\mathcal{S}_{\text{sem}} \in [0,1]^N

模块3: 运动先验 (Motion Prior)

设计动机: 直接从视觉特征空间构建运动先验,而非依赖动作空间信号(动作预测不稳定且对线性趋势敏感)

具体实现:

  • 二阶时间差分: 计算连续帧的加速度信号,有效过滤相机平移等线性背景漂移
  • 形态学闭合 + 高斯平滑: 增强运动响应区域的空间连通性
  • 指数移动平均历史累积: 用衰减因子 γ\gamma 平滑瞬时检测噪声
  • 最终得到时间显著性 Stemp[0,1]N\mathcal{S}_{\text{temp}} \in [0,1]^N

模块4: 交互对齐动态策略 (Interaction-Aligned Dynamic Strategy)

设计动机: 利用语义-运动一致性判断操作阶段,自适应调整剪枝强度

具体实现:

  • Ssem\mathcal{S}_{\text{sem}}Stemp\mathcal{S}_{\text{temp}} 二值化为掩码 Bsem\mathcal{B}_{\text{sem}}, Btemp\mathcal{B}_{\text{temp}}
  • 计算 IoUt=BsemBtemp/BsemBtemp\text{IoU}_t = |\mathcal{B}_{\text{sem}} \cap \mathcal{B}_{\text{temp}}| / |\mathcal{B}_{\text{sem}} \cup \mathcal{B}_{\text{temp}}|
  • Conservative Mode (IoUtθiou\text{IoU}_t \leq \theta_{\text{iou}}): 探索阶段,双弱排除——仅当语义和运动信号同时低于阈值才标记为背景
  • Aggressive Mode (IoUt>θiou\text{IoU}_t > \theta_{\text{iou}}): 交互锁定阶段,语义掩码收缩到峰值中心 cc^* 附近,与运动区域取并集

模块5: 最终视觉 Token 选择

融合几何先验,计算综合优先级分数 Scorei\text{Score}_i

保留语义-运动模块选中的 token Kt\mathcal{K}_t,以及综合分数超过阈值 θgeo\theta_{\text{geo}} 的 token

结果序列与文本指令拼接后送入 LLM

关键公式

公式1: 方向梯度

Gx=IgrayKx,Gy=IgrayKyG_x = I_{\text{gray}} * K_x, \quad G_y = I_{\text{gray}} * K_y

含义: 通过 Sobel 算子在灰度图上计算水平和垂直方向的梯度响应

符号说明:

  • Gx,GyG_x, G_y: 水平/垂直方向梯度响应
  • IgrayI_{\text{gray}}: 灰度图
  • Kx,KyK_x, K_y: 3×33 \times 3 方向卷积核
  • *: 2D 卷积运算

公式2: 边缘强度

G(u,v)=Gx(u,v)2+Gy(u,v)2\mathcal{G}(u,v) = \sqrt{G_x(u,v)^2 + G_y(u,v)^2}

含义: 计算像素 (u,v)(u,v) 处的梯度幅值,反映边缘强度

符号说明:

  • G(u,v)\mathcal{G}(u,v): 像素 (u,v)(u,v) 的边缘强度

公式3: Patch 级几何分数

Ei=1Pi(u,v)PiG(u,v),i{1,2,,N}E_i = \frac{1}{|\mathcal{P}_i|} \sum_{(u,v) \in \mathcal{P}_i} \mathcal{G}(u,v), \quad i \in \{1, 2, \dots, N\}

含义: 将像素级边缘响应聚合到 token 级,计算每个 patch 区域内的平均边缘强度

符号说明:

  • EiE_i: 第 ii 个 token 的几何结构分数
  • Pi\mathcal{P}_i: 第 ii 个 token 对应的像素区域
  • NN: token 总数

公式4: 跨模态语义注意力

pi=exp(x^ie^text/τ)j=1Nexp(x^je^text/τ)p_i = \frac{\exp\left(\hat{x}_i \cdot \hat{e}_{\text{text}} / \tau\right)}{\sum_{j=1}^{N} \exp\left(\hat{x}_j \cdot \hat{e}_{\text{text}} / \tau\right)}

含义: 通过温度缩放的点积相似度计算视觉 token 与文本指令的语义相关度

符号说明:

  • pip_i: 第 ii 个 token 的跨模态注意力概率
  • x^i\hat{x}_i: 归一化的视觉特征
  • e^text\hat{e}_{\text{text}}: 归一化的文本指令特征
  • τ=0.01\tau = 0.01: 温度系数

公式5: 二阶时间差分

dt,i=Xt,i2Xt1,i+Xt2,i2,i{1,2,,N}d_{t,i} = \|X_{t,i} - 2X_{t-1,i} + X_{t-2,i}\|_2, \quad i \in \{1, 2, \dots, N\}

含义: 计算特征演化的加速度信号,作为离散二阶导数的近似,有效过滤线性背景漂移

符号说明:

  • dt,id_{t,i}: 时刻 ttii 个 token 的运动变化量
  • Xt,iX_{t,i}: 时刻 ttii 个 token 的视觉特征向量
  • 2\|\cdot\|_2: 特征维度上的 L2L_2 范数

公式6: 运动历史累积

Ht=(1γ)Mt+γHt1H_t = (1 - \gamma) M_t + \gamma H_{t-1}

含义: 通过指数移动平均平滑瞬时运动检测噪声

符号说明:

  • HtH_t: 时刻 tt 的累积运动历史
  • MtM_t: 当前帧运动响应
  • γ\gamma: 衰减因子(如 0.7)

公式7: 形态学闭合 + 高斯平滑

M~t=((HtKstr)Kstr)N(0,σ2)\tilde{M}_t = \left((H_t \oplus K_{\text{str}}) \ominus K_{\text{str}}\right) * \mathcal{N}(0, \sigma^2)

含义: 通过形态学闭合增强运动区域的空间连通性,再用高斯滤波平滑

符号说明:

  • ,\oplus, \ominus: 形态学膨胀/腐蚀算子
  • KstrK_{\text{str}}: 结构元素
  • N(0,σ2)\mathcal{N}(0, \sigma^2): 高斯平滑滤波器

公式8: 语义掩码二值化

Bsem=I(Ssem>μsem+kσsem)\mathcal{B}_{\text{sem}} = \mathbb{I}\left(\mathcal{S}_{\text{sem}} > \mu_{\text{sem}} + k \cdot \sigma_{\text{sem}}\right)

含义: 使用均值+标准差的自适应阈值将连续语义分数转为二值掩码

符号说明:

  • Bsem\mathcal{B}_{\text{sem}}: 语义重要性二值掩码
  • μsem,σsem\mu_{\text{sem}}, \sigma_{\text{sem}}: 语义分数的均值和标准差
  • kk: 灵敏度系数
  • I()\mathbb{I}(\cdot): 指示函数

公式9: 运动掩码二值化

Btemp=I(Stemp>μtemp+kσtemp)\mathcal{B}_{\text{temp}} = \mathbb{I}\left(\mathcal{S}_{\text{temp}} > \mu_{\text{temp}} + k \cdot \sigma_{\text{temp}}\right)

含义: 同公式8,对运动分数做自适应二值化

符号说明:

  • Btemp\mathcal{B}_{\text{temp}}: 运动重要性二值掩码

公式10: 背景排除掩码 (Conservative Mode)

Bbg=I(Ssem<μsem+kbgσsem)I(Stemp<μtemp+kbgσtemp)\mathcal{B}_{\text{bg}} = \mathbb{I}\left(\mathcal{S}_{\text{sem}} < \mu_{\text{sem}} + k_{\text{bg}} \cdot \sigma_{\text{sem}}\right) \wedge \mathbb{I}\left(\mathcal{S}_{\text{temp}} < \mu_{\text{temp}} + k_{\text{bg}} \cdot \sigma_{\text{temp}}\right)

含义: 双弱排除策略——仅当语义和运动信号同时低于阈值时,才标记为纯背景

符号说明:

  • kbg<0k_{\text{bg}} < 0: 负数背景排除系数
  • \wedge: 逻辑 AND

公式11: 语义核心区域 (Aggressive Mode)

Kt={xiXvis(Bsem,icoreBtemp,i)=1}\mathcal{K}_t = \{x_i \in X_{\text{vis}} \mid (\mathcal{B}_{\text{sem},i}^{\text{core}} \vee \mathcal{B}_{\text{temp},i}) = 1\}

含义: 高置信度阶段,取收缩后的语义核心区域与完整运动区域的并集

符号说明:

  • Bsemcore=BsemI(dist(xi,c)r)\mathcal{B}_{\text{sem}}^{\text{core}} = \mathcal{B}_{\text{sem}} \wedge \mathbb{I}(\text{dist}(x_i, c^*) \leq r): 距语义峰值 cc^* 半径 rr 内的收缩语义掩码
  • c=argmax(Ssem)c^* = \arg\max(\mathcal{S}_{\text{sem}}): 语义响应峰值位置

公式12: 自适应模式切换

Kt={{xiXvisBbg,i=0},if IoUtθiou{xiXvis(Bsem,icoreBtemp,i)=1},if IoUt>θiou\mathcal{K}_t = \begin{cases} \{x_i \in X_{\text{vis}} \mid \mathcal{B}_{\text{bg},i} = 0\}, & \text{if } \text{IoU}_t \leq \theta_{\text{iou}} \\ \{x_i \in X_{\text{vis}} \mid (\mathcal{B}_{\text{sem},i}^{\text{core}} \vee \mathcal{B}_{\text{temp},i}) = 1\}, & \text{if } \text{IoU}_t > \theta_{\text{iou}} \end{cases}

含义: 根据语义-运动对齐度(IoU)动态选择保守或激进剪枝模式

符号说明:

  • IoUt\text{IoU}_t: 语义掩码与运动掩码的交并比
  • θiou\theta_{\text{iou}}: 模式切换阈值

公式13: 综合优先级分数

Scorei=Ssem,i+Stemp,i+wedgeEi\text{Score}_i = \mathcal{S}_{\text{sem},i} + \mathcal{S}_{\text{temp},i} + w_{\text{edge}} \cdot E_i

含义: 融合语义、运动、几何三路先验为统一的 token 重要性排序

符号说明:

  • wedgew_{\text{edge}}: 几何先验权重系数(默认 1.0)
  • EiE_i: 第 ii 个 token 的几何边缘强度

公式14: 最终 Token 选择

X^t={xiXvisxiKtScorei>θgeo}\hat{X}_t = \{x_i \in X_{\text{vis}} \mid x_i \in \mathcal{K}_t \vee \text{Score}_i > \theta_{\text{geo}}\}

含义: 保留语义-运动模块选中的 token 以及综合分数超过阈值的高边缘 token

符号说明:

  • θgeo\theta_{\text{geo}}: 最低边缘强度阈值

关键图表

Figure 1: Perception-First vs. Interaction-First 对比

Figure 1

说明: 对比传统 Perception-First 范式(依赖 VLM 注意力分数,可能丢弃操作关键区域)和本文 Interaction-First 范式(通过几何先验和交互对齐独立保护结构锚点)的核心区别。

Figure 2: VLA-IAP 方法总览

Figure 2: Method Overview

说明: VLA-IAP 整体架构。视觉编码器输出 dense token 序列后,三路并行计算 Geometric Prior(Sobel 边缘检测)、Semantic Prior(跨模态注意力)和 Motion Prior(二阶时间差分 + 形态学平滑)。Interaction-Aligned Strategy 通过 IoU 门控切换 Conservative/Aggressive 模式,最终融合几何先验输出压缩后的 token 序列。

Figure 3: 评估基准概览

Figure 3: Evaluation Benchmarks

说明: 展示三大仿真基准(LIBERO、CALVIN、VLABench)和真实机器人场景的任务多样性,涵盖空间推理、物体泛化、目标条件、长时序等维度。

Figure 4: 真实机器人实验平台

Figure 4: Real Robot Setup

说明: 双臂机器人系统,配备全局相机和腕部相机。包含三类操作任务:简单抓放、长时序多步骤、双臂协同垃圾分拣。

Figure 5: 交互对齐剪枝过程可视化 (LIBERO)

Figure 5: Pruning Process Visualization

说明: 动态剪枝过程:初始阶段语义-运动对齐度低(IoU=0),触发 Conservative 模式保留大部分物体;随着机器人接近目标,掩码交叠增大,激活 Aggressive 模式大幅压缩视觉 token。展示了自适应机制在不同操作阶段的行为差异。

Figure 6: 真实世界任务执行演示

Figure 6: Real-World Demonstrations

说明: 三类操作任务的成功执行序列:简单抓放(碗→盘子)、长时序(碗+面包多步操作)、双臂协同(垃圾分拣),确认了不同相机视角下的鲁棒性。

Figure 7: 几何先验可视化 (VLABench)

Figure 7: Geometric Prior on VLABench

说明: 边缘增强效果可视化。Sobel 算子成功提取物体轮廓和操作关键边界,即使这些区域在语义注意力中响应较弱。

Figure 8: 几何先验可视化 (LIBERO 腕部相机)

Figure 8: Geometric Prior on LIBERO

说明: 从腕部相机视角展示几何先验效果,验证了在不同相机视角和场景下边缘检测的稳定性。

Figure 9: LLM 注意力与剪枝对齐分析 (VLABench)

Figure 9: Attention Analysis

说明: 分析 LLM 注意力分布与 VLA-IAP 剪枝选择的对齐程度,验证保留的 token 确实是模型关注的关键区域。

Table 1: 跨模型综合性能对比

MethodDreamVLA LIBERO (%)CALVINπ₀ LIBERO (%)VLABench (%)Avg
Spa.Obj.GoalLongSeq.LenSpa.Obj.GoalLongCon.Paint.Poker.
Vanilla84.591.589.589.54.4394.298.294.682.856.030.052.046.0
70% Retention
FastV86.586.584.087.54.4093.596.192.280.544.028.032.034.6
SparseVLM86.585.091.586.54.4093.894.892.580.150.032.026.036.0
DivPrune85.590.588.085.54.4291.892.591.479.26.022.02.010.0
VLA-Cache88.089.589.587.54.4294.597.894.582.642.032.048.040.7
VLA-IAP91.593.592.590.54.4594.898.595.284.255.036.048.046.3
50% Retention
FastV84.581.584.086.54.2192.495.391.079.416.022.02.013.3
SparseVLM84.583.590.586.54.4092.093.890.777.614.030.02.015.3
DivPrune84.592.084.585.04.3288.892.089.875.34.022.02.09.3
VLA-Cache87.588.086.087.54.3994.195.994.882.016.830.011.319.3
VLA-IAP90.592.090.589.74.4494.598.394.583.448.932.042.041.0
30% Retention
FastV79.056.573.081.53.8886.880.786.273.90.022.00.07.3
SparseVLM76.543.079.080.54.1187.186.282.571.918.026.02.015.3
DivPrune71.087.581.580.54.1982.172.279.466.04.016.00.06.7
VLA-Cache81.581.579.279.54.1786.587.285.672.60.024.00.08.0
VLA-IAP87.589.589.289.14.4293.297.694.282.646.032.022.033.3

表格说明: 在所有保留率下 VLA-IAP 均全面领先。关键发现: 30% 保留率下 VLABench 任务,FastV/VLA-Cache 出现灾难性失败(0-8%),VLA-IAP 仍维持 33.3%,验证 Interaction-First 范式对结构锚点的保护能力。

Table 2: OpenVLA-OFT 在 LIBERO 上的结果

MethodCKPTSpa.Obj.GoalLongAvg.Speedup
Part I: VLA Models
OpenVLA7B84.788.479.253.776.5
WorldVLA7B87.696.283.460.081.8
NORA3B85.687.877.045.073.9
SmolVLA2.2B93.094.091.077.088.8
CogACT7B97.298.090.288.893.6
OpenVLA-OFT7B98.698.296.694.897.11.00×
Part II: Pruning Methods
VLA-ADP (70%)7B99.098.296.891.296.31.13×
VLA-ADP (50%)7B99.498.096.491.296.31.23×
VLA-ADP (30%)7B97.698.497.484.294.41.35×
FastV7B96.881.096.473.086.81.24×
VLA-Cache7B98.397.598.395.497.41.30×
SpecPrune-VLA7B98.296.397.794.096.61.46×
TeamVLA7B99.296.597.093.896.61.51×
EfficientVLA7B96.591.196.072.188.91.54×
VLA-IAP (70%)7B97.699.698.495.697.81.25×
VLA-IAP (50%)7B97.399.198.295.297.51.37×
VLA-IAP (30%)7B96.698.898.094.897.11.54×

表格说明: VLA-IAP 在 70% 保留率下达到 SOTA 97.8%(超过未剪枝 baseline 97.1%)。30% 保留率下仍维持 97.1%,与未剪枝完全相同,同时获得 1.54× 加速。EfficientVLA 虽有同等加速比但性能严重退化(88.9%)。

Table 3: 逐组件消融实验

MethodSR (%)Latency (ms)Speedup
OpenVLA-OFT (Base)94.5123.21.00×
Step 1: 时空剪枝
+ Spatiotemp. (k=0.3, γ=0.7)93.177.91.58×
+ Spatiotemp. (k=0.5, γ=0.7)94.886.71.42×
+ Spatiotemp. (k=0.7, γ=0.7)92.594.81.30×
Step 2: IoU 门控切换
+ IoU (θ_iou=0.02)95.178.91.56×
+ IoU (θ_iou=0.05)97.293.31.32×
+ IoU (θ_iou=0.10)95.597.01.27×
Step 3: 边缘增强 (最终)
+ Edge (θ_iou=0.05, w_edge=1.0)97.898.61.25×
+ Edge (θ_iou=0.05, w_edge=0.5)97.297.01.27×
+ Edge (θ_iou=0.05, w_edge=1.5)97.496.31.28×
+ Edge (θ_iou=0.02, w_edge=1.0)97.180.01.54×

关键发现: 每个组件渐进式提升性能——时空剪枝提供基础加速,IoU 门控显著提升成功率(+2.4%),边缘增强进一步到 97.8%。θiou=0.05\theta_{\text{iou}}=0.05, wedge=1.0w_{\text{edge}}=1.0 为最优配置。

Table 4: π₀ 上的内存和运行时分析

Method70%50%30%
Mem (GB)CUDA (ms)Mem (GB)CUDA (ms)Mem (GB)CUDA (ms)
Vanilla7.1198.037.1198.037.1198.03
FastV7.01881.696.98974.276.96869.52
SparseVLM7.00381.026.96172.616.95470.53
DivPrune6.96179.696.92573.166.91169.04
VLA-Cache7.08288.327.06783.797.03279.69
VLA-IAP6.99877.966.93272.086.88265.79

表格说明: VLA-IAP 在所有保留率下实现最低延迟和最低内存占用。30% 保留率下 65.79ms(vs. Vanilla 98.03ms),内存降至 6.882GB。

Table 5: 真实机器人实验

指标SimpleLongDual-ArmAvg.
成功率 (%)
π₀.₅ (base)80.064.044.062.7
VLA-IAP84.068.044.065.3
延迟 (ms)
π₀.₅ (base)88.1124.3
VLA-IAP59.7 (1.48×)84.6 (1.47×)

表格说明: 真实场景验证——VLA-IAP 在提升成功率的同时(+2.6%)实现 ~1.48× 延迟降低。

Table 6: 跨模型硬件效率分析

MethodDreamVLA CALVINDreamVLA LIBEROπ₀ LIBERO
Mem (GB)Time (ms)RatioMem (GB)Time (ms)RatioMem (GB)Time (ms)Ratio
Vanilla2.810120.282.661101.476.21494.13
FastV2.77199.401.21×2.62684.551.20×6.13579.441.18×
SparseVLM2.76499.411.21×2.62183.851.21×6.11779.801.18×
DivPrune2.75697.791.23×2.61582.491.23×6.10976.531.23×
VLA-Cache2.798102.431.17×2.63485.991.18×6.18584.851.11×
VLA-IAP2.74798.211.22×2.61081.891.24×6.09875.441.25×

表格说明: 跨三个不同配置验证了 VLA-IAP 的通用硬件效率提升(1.22-1.25×)。

Table 7: VLABench 细粒度任务性能

MethodCon.FlowerBookChem.DrinkFruitMahj.Paint.PokerToyAvg.
70% Retention
Baseline56.020.054.036.042.042.032.030.052.028.039.2
FastV44.02.038.835.418.02.02.128.032.02.020.4
SparseVLM50.00.052.228.628.64.08.132.026.04.023.4
DivPrune6.00.08.06.012.22.02.022.02.02.06.2
VLA-Cache42.010.042.930.032.030.024.432.048.06.029.7
VLA-IAP55.012.040.441.742.026.026.136.048.010.033.7
50% Retention
FastV16.00.025.68.218.40.02.122.02.00.09.4
SparseVLM12.00.025.64.120.00.04.330.02.00.09.8
DivPrune4.00.022.010.016.30.04.322.02.00.08.1
VLA-Cache16.80.023.914.012.00.08.230.011.30.011.6
VLA-IAP48.96.029.827.128.614.010.632.042.06.024.5
30% Retention
FastV0.00.021.50.04.30.02.122.00.00.05.0
SparseVLM18.00.06.50.012.20.00.026.02.00.06.5
DivPrune4.00.010.60.04.20.04.116.00.00.03.9
VLA-Cache16.80.04.00.010.00.00.024.00.00.05.5
VLA-IAP46.04.021.78.216.38.28.532.022.04.017.1

表格说明: VLABench 细粒度任务下,VLA-IAP 在几乎所有子任务上领先,尤其在 Construction(需精细操作边界)和 Poker(需精确定位)任务上优势显著。

Table 8: 边缘检测算子消融

MethodSpa.Obj.GoalLongAvg.Latency (ms)
OpenVLA-OFT (Base)98.698.296.694.897.1123.2
VLA-IAP (Canny)97.298.897.493.896.8104.5
VLA-IAP (HED)97.499.698.294.497.4125.1
VLA-IAP (BDCN)97.699.098.295.297.5132.8
VLA-IAP (Sobel)97.699.698.495.697.898.6

关键发现: Sobel 在性能(97.8%)和延迟(98.6ms)上均为最优。HED/BDCN 等深度学习边缘检测器虽性能接近但引入额外延迟,不适合实时场景。Canny 性能略低(96.8%)。验证了轻量级传统算子在此任务上的有效性。

实验

数据集

数据集规模特点用途
LIBERO4 子任务集空间/物体/目标/长时序泛化仿真主评估
CALVINA/B/C/D 4个环境长时序语言条件策略学习仿真评估
VLABench100类任务, 2000+ 3D物体复杂长时序推理, 强域随机化仿真挑战评估
Real Robot3类任务双臂, 全局+腕部相机真实场景验证

实现细节

VLA Backbone: OpenVLA-OFT (7B), DreamVLA, π₀, π₀.₅

边缘检测: Sobel 算子(3×33 \times 3 核)

关键超参数:

  • 温度系数 τ=0.01\tau = 0.01
  • 运动衰减因子 γ=0.7\gamma = 0.7
  • 灵敏度系数 k=0.5k = 0.5(最优)
  • IoU 阈值 θiou=0.05\theta_{\text{iou}} = 0.05(最优)
  • 边缘权重 wedge=1.0w_{\text{edge}} = 1.0(最优)

硬件: NVIDIA A100

保留率: 70% / 50% / 30%

可视化结果

Figure 5 展示了 Conservative → Aggressive 模式的动态切换过程

Figure 7-8 验证了几何先验在不同视角下的边缘检测鲁棒性

Figure 9 确认了剪枝选择与 LLM 注意力分布的高度一致性

批判性思考

优点

无训练即插即用: 不需要重新训练或微调 VLA 模型,直接在推理时应用

范式创新: Interaction-First 思路比 Perception-First 更符合机器人操作的物理本质,独立于 VLM 的语义偏置

鲁棒的极端压缩: 30% 保留率下仍维持 97.1%(完全匹配未剪枝性能),这在同类方法中非常罕见

跨模型泛化: 在 4 种不同 VLA 架构上验证有效性

真实场景验证: 不仅是仿真,还有真实双臂机器人实验

局限性

Sobel 算子的局限: 对弱纹理、半透明物体的边缘检测可能不够鲁棒

IoU 阈值敏感性: 从消融实验看,θiou\theta_{\text{iou}} 在 0.02-0.10 间对性能和加速比影响较大,可能需要针对不同场景调参

二阶时间差分需要历史帧: 前两帧无法计算运动先验,对任务初始阶段可能有影响

VLABench 绝对性能仍有差距: 虽然远超其他剪枝方法,但在 30% 保留率下 VLABench 成功率(17.1%)远低于未剪枝 baseline(39.2%),说明复杂任务下激进剪枝仍有信息损失

潜在改进方向

将几何先验从 Sobel 升级为轻量级学习型边缘检测(如蒸馏后的 HED),在不显著增加延迟的前提下提升边缘质量

探索自适应保留率——根据场景复杂度动态调整而非固定比例

结合 KV-Cache 压缩进一步加速 LLM 推理部分

在更多真实场景和更长时间尺度的任务上验证鲁棒性

可复现性评估

  • 代码开源(项目主页 VLA-IAP.com 已公布)
  • 预训练模型(无训练方法,不需要额外模型)
  • 训练细节完整(超参数、消融实验详细)
  • 数据集可获取(LIBERO, CALVIN, VLABench 均公开)

关联笔记

基于

OpenVLA: 主要验证的 VLA backbone

FastV: VLM 视觉 token 剪枝的先驱方法

VLA-Cache: 动态 VLA token 缓存方法

对比

FastV: 静态注意力剪枝,VLA 场景下性能退化严重

SparseVLM: 稀疏注意力方法,同样依赖模型注意力偏置

EfficientVLA: 动态剪枝,1.54× 加速但性能退化严重(88.9%)

VLA-Cache: 背景缓存策略,极端压缩下灾难性失败

方法相关

Visual Token Pruning: 核心技术——视觉 token 剪枝

Sobel 边缘检测: 几何先验的核心——轻量级边缘检测

IoU: 交互对齐策略的门控信号

EMA: 运动历史累积

形态学操作: 运动区域空间连通性增强

硬件/数据相关

LIBERO: 主要仿真评估基准

速查卡片

VLA-IAP: Training-Free Visual Token Pruning via Interaction Alignment for Vision-Language-Action Models

  • 核心: Interaction-First 范式,通过几何先验 + 语义-运动 IoU 对齐实现 VLA 模型的无训练视觉 token 剪枝
  • 方法: Sobel 边缘检测保护结构锚点 + 二阶时间差分运动先验 + IoU 门控 Conservative/Aggressive 模式切换
  • 结果: LIBERO 97.8% 成功率 + 1.25× 加速(70%保留);97.1% + 1.54× 加速(30%保留)
  • 代码: VLA-IAP.com

笔记创建时间: 2026-03-26