VLA-IAP: Training-Free Visual Token Pruning via Interaction Alignment for Vision-Language-Action Models

作者: Jintao Cheng, Haozhe Wang, Weibin Li, Gang Wang, Yipu Zhang, Xiaoyu Tang, Jin Wu, Xieyuanli Chen, Yunhui Liu, Wei Zhang 年份: 2026 会议: arXiv 分类: 剪枝与稀疏化

论文笔记：VLA-IAP: Training-Free Visual Token Pruning via Interaction Alignment for Vision-Language-Action Models

元信息

项目	内容
机构	HKUST, CUHK, South China Normal Univ., NUDT, USTB
日期	March 2026
项目主页	VLA-IAP.com
对比基线	FastV, SparseVLM, VLA-Cache, EfficientVLA
链接	arXiv

一句话总结

提出 Interaction-First 范式的无训练视觉 token 剪枝方法，通过几何先验 + 语义-运动 IoU 对齐自适应切换保守/激进剪枝模式，在 VLA 模型上实现 1.25-1.54× 加速且不损失性能。

核心贡献

Interaction-First 范式: 将视觉压缩从传统的 Perception-First（依赖注意力语义显著性）转向显式的交互优先对齐，独立于 VLM 的注意力偏置

几何先验机制 (Geometric Prior): 通过轻量级 Sobel 边缘检测提取结构锚点，保护语义弱但操作关键的边界区域不被错误剪枝

交互对齐动态策略 (Interaction-Aligned Dynamic Strategy): 利用语义-运动掩码的 IoU 作为门控信号，自适应切换 Conservative/Aggressive 剪枝模式

问题背景

要解决的问题

VLA 模型（如 OpenVLA, π₀）处理高分辨率多视角输入时推理延迟大，通常低于 5 Hz，无法满足闭环机器人控制的实时性需求

视觉 token 序列过长是主要瓶颈

现有方法的局限

静态方法（FastV, SparseVLM）依赖注意力分数做一次性过滤，对早期语义未对齐的情况敏感

动态方法（VLA-Cache, EfficientVLA）虽引入时空和动作线索，但仍依赖模型注意力分数

核心缺陷: 如果预训练模型本身忽略了某些几何细节（缺乏物理连续性），基于其注意力分数的剪枝会继承并放大这些错误

现有方法遵循 Perception-First 偏置，将视觉理解等同于语义理解，忽视物理可供性 (affordance)

本文的动机

机器人操作的关键区域不一定是语义显著区域——纹理贫乏但结构关键的交互锚点（如物体边缘、抓取点）可能被语义剪枝错误丢弃

需要一种独立于模型注意力的显式物理先验来保护结构锚点

语义意图和物理运动的空间对齐程度可作为剪枝强度的动态指标

方法详解

模型架构

VLA-IAP 是一个 无训练的即插即用 视觉 token 剪枝框架：

输入: 语言指令 $l$ + 当前观测图像 $I \in \mathbb{R}^{H \times W \times 3}$ + 历史帧
视觉编码器: 提取 dense token 序列 $X_{\text{vis}} \in \mathbb{R}^{N \times D}$ ，其中 $N = (H/P) \times (W/P)$
三路并行先验: Geometric Prior + Semantic Prior + Motion Prior
交互对齐策略: IoU 门控的 Conservative/Aggressive 模式切换
输出: 压缩后的视觉 token 序列 $\hat{X}_t$ 送入 LLM 进行动作推理
兼容 VLA: OpenVLA-OFT, DreamVLA, π₀, π₀.₅

核心模块

模块1: 几何先验 (Geometric Prior for Edge Enhancement)

设计动机: 独立于 VLM 语义空间，提取纯物理轮廓作为结构锚点，防止操作关键边界被误剪

具体实现:

将原始图像转为灰度图 $I_{\text{gray}}$ ，避免颜色语义干扰
使用 Sobel 边缘检测算子提取水平/垂直方向梯度
计算像素级边缘强度并聚合到 token 级别
归一化后得到边缘增强先验向量 $\mathbf{E} = [\tilde{E}_1, \tilde{E}_2, \dots, \tilde{E}_N]$
$\tilde{E}_i$ 越大表示物理可供性越高（尖锐几何变化、清晰物体边界）

模块2: 语义先验 (Semantic Prior)

设计动机: 建立语言指令和视觉观测之间的基础意图对齐

具体实现:

对视觉特征 $X_{\text{vis}}$ 和文本指令特征 $\hat{e}_{\text{text}}$ 做空间中心化 + $L_2$ 归一化
通过温度缩放的点积相似度（ $\tau = 0.01$ ）计算跨模态注意力分布
空间平均池化平滑局部噪声 + min-max 归一化，得到语义显著性 $\mathcal{S}_{\text{sem}} \in [0,1]^N$

模块3: 运动先验 (Motion Prior)

设计动机: 直接从视觉特征空间构建运动先验，而非依赖动作空间信号（动作预测不稳定且对线性趋势敏感）

具体实现:

二阶时间差分: 计算连续帧的加速度信号，有效过滤相机平移等线性背景漂移
形态学闭合 + 高斯平滑: 增强运动响应区域的空间连通性
指数移动平均历史累积: 用衰减因子 $\gamma$ 平滑瞬时检测噪声
最终得到时间显著性 $\mathcal{S}_{\text{temp}} \in [0,1]^N$

模块4: 交互对齐动态策略 (Interaction-Aligned Dynamic Strategy)

设计动机: 利用语义-运动一致性判断操作阶段，自适应调整剪枝强度

具体实现:

将 $\mathcal{S}_{\text{sem}}$ 和 $\mathcal{S}_{\text{temp}}$ 二值化为掩码 $\mathcal{B}_{\text{sem}}$ , $\mathcal{B}_{\text{temp}}$
计算 $\text{IoU}_t = |\mathcal{B}_{\text{sem}} \cap \mathcal{B}_{\text{temp}}| / |\mathcal{B}_{\text{sem}} \cup \mathcal{B}_{\text{temp}}|$
Conservative Mode ( $\text{IoU}_t \leq \theta_{\text{iou}}$ ): 探索阶段，双弱排除——仅当语义和运动信号同时低于阈值才标记为背景
Aggressive Mode ( $\text{IoU}_t > \theta_{\text{iou}}$ ): 交互锁定阶段，语义掩码收缩到峰值中心 $c^*$ 附近，与运动区域取并集

模块5: 最终视觉 Token 选择

融合几何先验，计算综合优先级分数 $\text{Score}_i$

保留语义-运动模块选中的 token $\mathcal{K}_t$ ，以及综合分数超过阈值 $\theta_{\text{geo}}$ 的 token

结果序列与文本指令拼接后送入 LLM

关键公式

公式1: 方向梯度

G_x = I_{\text{gray}} * K_x, \quad G_y = I_{\text{gray}} * K_y

含义: 通过 Sobel 算子在灰度图上计算水平和垂直方向的梯度响应

符号说明:

$G_x, G_y$ : 水平/垂直方向梯度响应
$I_{\text{gray}}$ : 灰度图
$K_x, K_y$ : $3 \times 3$ 方向卷积核
$*$ : 2D 卷积运算

公式2: 边缘强度

\mathcal{G}(u,v) = \sqrt{G_x(u,v)^2 + G_y(u,v)^2}

含义: 计算像素 $(u,v)$ 处的梯度幅值，反映边缘强度

符号说明:

$\mathcal{G}(u,v)$ : 像素 $(u,v)$ 的边缘强度

公式3: Patch 级几何分数

E_i = \frac{1}{|\mathcal{P}_i|} \sum_{(u,v) \in \mathcal{P}_i} \mathcal{G}(u,v), \quad i \in \{1, 2, \dots, N\}

含义: 将像素级边缘响应聚合到 token 级，计算每个 patch 区域内的平均边缘强度

符号说明:

$E_i$ : 第 $i$ 个 token 的几何结构分数
$\mathcal{P}_i$ : 第 $i$ 个 token 对应的像素区域
$N$ : token 总数

公式4: 跨模态语义注意力

p_i = \frac{\exp\left(\hat{x}_i \cdot \hat{e}_{\text{text}} / \tau\right)}{\sum_{j=1}^{N} \exp\left(\hat{x}_j \cdot \hat{e}_{\text{text}} / \tau\right)}

含义: 通过温度缩放的点积相似度计算视觉 token 与文本指令的语义相关度

符号说明:

$p_i$ : 第 $i$ 个 token 的跨模态注意力概率
$\hat{x}_i$ : 归一化的视觉特征
$\hat{e}_{\text{text}}$ : 归一化的文本指令特征
$\tau = 0.01$ : 温度系数

公式5: 二阶时间差分

d_{t,i} = \|X_{t,i} - 2X_{t-1,i} + X_{t-2,i}\|_2, \quad i \in \{1, 2, \dots, N\}

含义: 计算特征演化的加速度信号，作为离散二阶导数的近似，有效过滤线性背景漂移

符号说明:

$d_{t,i}$ : 时刻 $t$ 第 $i$ 个 token 的运动变化量
$X_{t,i}$ : 时刻 $t$ 第 $i$ 个 token 的视觉特征向量
$\|\cdot\|_2$ : 特征维度上的 $L_2$ 范数

公式6: 运动历史累积

H_t = (1 - \gamma) M_t + \gamma H_{t-1}

含义: 通过指数移动平均平滑瞬时运动检测噪声

符号说明:

$H_t$ : 时刻 $t$ 的累积运动历史
$M_t$ : 当前帧运动响应
$\gamma$ : 衰减因子（如 0.7）

公式7: 形态学闭合 + 高斯平滑

\tilde{M}_t = \left((H_t \oplus K_{\text{str}}) \ominus K_{\text{str}}\right) * \mathcal{N}(0, \sigma^2)

含义: 通过形态学闭合增强运动区域的空间连通性，再用高斯滤波平滑

符号说明:

$\oplus, \ominus$ : 形态学膨胀/腐蚀算子
$K_{\text{str}}$ : 结构元素
$\mathcal{N}(0, \sigma^2)$ : 高斯平滑滤波器

公式8: 语义掩码二值化

\mathcal{B}_{\text{sem}} = \mathbb{I}\left(\mathcal{S}_{\text{sem}} > \mu_{\text{sem}} + k \cdot \sigma_{\text{sem}}\right)

含义: 使用均值+标准差的自适应阈值将连续语义分数转为二值掩码

符号说明:

$\mathcal{B}_{\text{sem}}$ : 语义重要性二值掩码
$\mu_{\text{sem}}, \sigma_{\text{sem}}$ : 语义分数的均值和标准差
$k$ : 灵敏度系数
$\mathbb{I}(\cdot)$ : 指示函数

公式9: 运动掩码二值化

\mathcal{B}_{\text{temp}} = \mathbb{I}\left(\mathcal{S}_{\text{temp}} > \mu_{\text{temp}} + k \cdot \sigma_{\text{temp}}\right)

含义: 同公式8，对运动分数做自适应二值化

符号说明:

$\mathcal{B}_{\text{temp}}$ : 运动重要性二值掩码

公式10: 背景排除掩码 (Conservative Mode)

\mathcal{B}_{\text{bg}} = \mathbb{I}\left(\mathcal{S}_{\text{sem}} < \mu_{\text{sem}} + k_{\text{bg}} \cdot \sigma_{\text{sem}}\right) \wedge \mathbb{I}\left(\mathcal{S}_{\text{temp}} < \mu_{\text{temp}} + k_{\text{bg}} \cdot \sigma_{\text{temp}}\right)

含义: 双弱排除策略——仅当语义和运动信号同时低于阈值时，才标记为纯背景

符号说明:

$k_{\text{bg}} < 0$ : 负数背景排除系数
$\wedge$ : 逻辑 AND

公式11: 语义核心区域 (Aggressive Mode)

\mathcal{K}_t = \{x_i \in X_{\text{vis}} \mid (\mathcal{B}_{\text{sem},i}^{\text{core}} \vee \mathcal{B}_{\text{temp},i}) = 1\}

含义: 高置信度阶段，取收缩后的语义核心区域与完整运动区域的并集

符号说明:

$\mathcal{B}_{\text{sem}}^{\text{core}} = \mathcal{B}_{\text{sem}} \wedge \mathbb{I}(\text{dist}(x_i, c^*) \leq r)$ : 距语义峰值 $c^*$ 半径 $r$ 内的收缩语义掩码
$c^* = \arg\max(\mathcal{S}_{\text{sem}})$ : 语义响应峰值位置

公式12: 自适应模式切换

\mathcal{K}_t = \begin{cases} \{x_i \in X_{\text{vis}} \mid \mathcal{B}_{\text{bg},i} = 0\}, & \text{if } \text{IoU}_t \leq \theta_{\text{iou}} \\ \{x_i \in X_{\text{vis}} \mid (\mathcal{B}_{\text{sem},i}^{\text{core}} \vee \mathcal{B}_{\text{temp},i}) = 1\}, & \text{if } \text{IoU}_t > \theta_{\text{iou}} \end{cases}

含义: 根据语义-运动对齐度（IoU）动态选择保守或激进剪枝模式

符号说明:

$\text{IoU}_t$ : 语义掩码与运动掩码的交并比
$\theta_{\text{iou}}$ : 模式切换阈值

公式13: 综合优先级分数

\text{Score}_i = \mathcal{S}_{\text{sem},i} + \mathcal{S}_{\text{temp},i} + w_{\text{edge}} \cdot E_i

含义: 融合语义、运动、几何三路先验为统一的 token 重要性排序

符号说明:

$w_{\text{edge}}$ : 几何先验权重系数（默认 1.0）
$E_i$ : 第 $i$ 个 token 的几何边缘强度

公式14: 最终 Token 选择

\hat{X}_t = \{x_i \in X_{\text{vis}} \mid x_i \in \mathcal{K}_t \vee \text{Score}_i > \theta_{\text{geo}}\}

含义: 保留语义-运动模块选中的 token 以及综合分数超过阈值的高边缘 token

符号说明:

$\theta_{\text{geo}}$ : 最低边缘强度阈值

关键图表

Figure 1: Perception-First vs. Interaction-First 对比

说明: 对比传统 Perception-First 范式（依赖 VLM 注意力分数，可能丢弃操作关键区域）和本文 Interaction-First 范式（通过几何先验和交互对齐独立保护结构锚点）的核心区别。

Figure 2: VLA-IAP 方法总览

Figure 2: Method Overview

说明: VLA-IAP 整体架构。视觉编码器输出 dense token 序列后，三路并行计算 Geometric Prior（Sobel 边缘检测）、Semantic Prior（跨模态注意力）和 Motion Prior（二阶时间差分 + 形态学平滑）。Interaction-Aligned Strategy 通过 IoU 门控切换 Conservative/Aggressive 模式，最终融合几何先验输出压缩后的 token 序列。

Figure 3: 评估基准概览

Figure 3: Evaluation Benchmarks

说明: 展示三大仿真基准（LIBERO、CALVIN、VLABench）和真实机器人场景的任务多样性，涵盖空间推理、物体泛化、目标条件、长时序等维度。

Figure 4: 真实机器人实验平台

Figure 4: Real Robot Setup

说明: 双臂机器人系统，配备全局相机和腕部相机。包含三类操作任务：简单抓放、长时序多步骤、双臂协同垃圾分拣。

Figure 5: 交互对齐剪枝过程可视化 (LIBERO)

Figure 5: Pruning Process Visualization

说明: 动态剪枝过程：初始阶段语义-运动对齐度低（IoU=0），触发 Conservative 模式保留大部分物体；随着机器人接近目标，掩码交叠增大，激活 Aggressive 模式大幅压缩视觉 token。展示了自适应机制在不同操作阶段的行为差异。

Figure 6: 真实世界任务执行演示

Figure 6: Real-World Demonstrations

说明: 三类操作任务的成功执行序列：简单抓放（碗→盘子）、长时序（碗+面包多步操作）、双臂协同（垃圾分拣），确认了不同相机视角下的鲁棒性。

Figure 7: 几何先验可视化 (VLABench)

Figure 7: Geometric Prior on VLABench

说明: 边缘增强效果可视化。Sobel 算子成功提取物体轮廓和操作关键边界，即使这些区域在语义注意力中响应较弱。

Figure 8: 几何先验可视化 (LIBERO 腕部相机)

Figure 8: Geometric Prior on LIBERO

说明: 从腕部相机视角展示几何先验效果，验证了在不同相机视角和场景下边缘检测的稳定性。

Figure 9: LLM 注意力与剪枝对齐分析 (VLABench)

Figure 9: Attention Analysis

说明: 分析 LLM 注意力分布与 VLA-IAP 剪枝选择的对齐程度，验证保留的 token 确实是模型关注的关键区域。

Table 1: 跨模型综合性能对比

Method	DreamVLA LIBERO (%)				CALVIN	π₀ LIBERO (%)				VLABench (%)			Avg
	Spa.	Obj.	Goal	Long	Seq.Len	Spa.	Obj.	Goal	Long	Con.	Paint.	Poker.
Vanilla	84.5	91.5	89.5	89.5	4.43	94.2	98.2	94.6	82.8	56.0	30.0	52.0	46.0
70% Retention
FastV	86.5	86.5	84.0	87.5	4.40	93.5	96.1	92.2	80.5	44.0	28.0	32.0	34.6
SparseVLM	86.5	85.0	91.5	86.5	4.40	93.8	94.8	92.5	80.1	50.0	32.0	26.0	36.0
DivPrune	85.5	90.5	88.0	85.5	4.42	91.8	92.5	91.4	79.2	6.0	22.0	2.0	10.0
VLA-Cache	88.0	89.5	89.5	87.5	4.42	94.5	97.8	94.5	82.6	42.0	32.0	48.0	40.7
VLA-IAP	91.5	93.5	92.5	90.5	4.45	94.8	98.5	95.2	84.2	55.0	36.0	48.0	46.3
50% Retention
FastV	84.5	81.5	84.0	86.5	4.21	92.4	95.3	91.0	79.4	16.0	22.0	2.0	13.3
SparseVLM	84.5	83.5	90.5	86.5	4.40	92.0	93.8	90.7	77.6	14.0	30.0	2.0	15.3
DivPrune	84.5	92.0	84.5	85.0	4.32	88.8	92.0	89.8	75.3	4.0	22.0	2.0	9.3
VLA-Cache	87.5	88.0	86.0	87.5	4.39	94.1	95.9	94.8	82.0	16.8	30.0	11.3	19.3
VLA-IAP	90.5	92.0	90.5	89.7	4.44	94.5	98.3	94.5	83.4	48.9	32.0	42.0	41.0
30% Retention
FastV	79.0	56.5	73.0	81.5	3.88	86.8	80.7	86.2	73.9	0.0	22.0	0.0	7.3
SparseVLM	76.5	43.0	79.0	80.5	4.11	87.1	86.2	82.5	71.9	18.0	26.0	2.0	15.3
DivPrune	71.0	87.5	81.5	80.5	4.19	82.1	72.2	79.4	66.0	4.0	16.0	0.0	6.7
VLA-Cache	81.5	81.5	79.2	79.5	4.17	86.5	87.2	85.6	72.6	0.0	24.0	0.0	8.0
VLA-IAP	87.5	89.5	89.2	89.1	4.42	93.2	97.6	94.2	82.6	46.0	32.0	22.0	33.3

表格说明: 在所有保留率下 VLA-IAP 均全面领先。关键发现: 30% 保留率下 VLABench 任务，FastV/VLA-Cache 出现灾难性失败（0-8%），VLA-IAP 仍维持 33.3%，验证 Interaction-First 范式对结构锚点的保护能力。

Table 2: OpenVLA-OFT 在 LIBERO 上的结果

Method	CKPT	Spa.	Obj.	Goal	Long	Avg.	Speedup
Part I: VLA Models
OpenVLA	7B	84.7	88.4	79.2	53.7	76.5	—
WorldVLA	7B	87.6	96.2	83.4	60.0	81.8	—
NORA	3B	85.6	87.8	77.0	45.0	73.9	—
SmolVLA	2.2B	93.0	94.0	91.0	77.0	88.8	—
CogACT	7B	97.2	98.0	90.2	88.8	93.6	—
OpenVLA-OFT	7B	98.6	98.2	96.6	94.8	97.1	1.00×
Part II: Pruning Methods
VLA-ADP (70%)	7B	99.0	98.2	96.8	91.2	96.3	1.13×
VLA-ADP (50%)	7B	99.4	98.0	96.4	91.2	96.3	1.23×
VLA-ADP (30%)	7B	97.6	98.4	97.4	84.2	94.4	1.35×
FastV	7B	96.8	81.0	96.4	73.0	86.8	1.24×
VLA-Cache	7B	98.3	97.5	98.3	95.4	97.4	1.30×
SpecPrune-VLA	7B	98.2	96.3	97.7	94.0	96.6	1.46×
TeamVLA	7B	99.2	96.5	97.0	93.8	96.6	1.51×
EfficientVLA	7B	96.5	91.1	96.0	72.1	88.9	1.54×
VLA-IAP (70%)	7B	97.6	99.6	98.4	95.6	97.8	1.25×
VLA-IAP (50%)	7B	97.3	99.1	98.2	95.2	97.5	1.37×
VLA-IAP (30%)	7B	96.6	98.8	98.0	94.8	97.1	1.54×

表格说明: VLA-IAP 在 70% 保留率下达到 SOTA 97.8%（超过未剪枝 baseline 97.1%）。30% 保留率下仍维持 97.1%，与未剪枝完全相同，同时获得 1.54× 加速。EfficientVLA 虽有同等加速比但性能严重退化（88.9%）。

Table 3: 逐组件消融实验

Method	SR (%)	Latency (ms)	Speedup
OpenVLA-OFT (Base)	94.5	123.2	1.00×
Step 1: 时空剪枝
+ Spatiotemp. (k=0.3, γ=0.7)	93.1	77.9	1.58×
+ Spatiotemp. (k=0.5, γ=0.7)	94.8	86.7	1.42×
+ Spatiotemp. (k=0.7, γ=0.7)	92.5	94.8	1.30×
Step 2: IoU 门控切换
+ IoU (θ_iou=0.02)	95.1	78.9	1.56×
+ IoU (θ_iou=0.05)	97.2	93.3	1.32×
+ IoU (θ_iou=0.10)	95.5	97.0	1.27×
Step 3: 边缘增强 (最终)
+ Edge (θ_iou=0.05, w_edge=1.0)	97.8	98.6	1.25×
+ Edge (θ_iou=0.05, w_edge=0.5)	97.2	97.0	1.27×
+ Edge (θ_iou=0.05, w_edge=1.5)	97.4	96.3	1.28×
+ Edge (θ_iou=0.02, w_edge=1.0)	97.1	80.0	1.54×

关键发现: 每个组件渐进式提升性能——时空剪枝提供基础加速，IoU 门控显著提升成功率（+2.4%），边缘增强进一步到 97.8%。 $\theta_{\text{iou}}=0.05$ , $w_{\text{edge}}=1.0$ 为最优配置。

Table 4: π₀ 上的内存和运行时分析

Method	70%		50%		30%
	Mem (GB)	CUDA (ms)	Mem (GB)	CUDA (ms)	Mem (GB)	CUDA (ms)
Vanilla	7.11	98.03	7.11	98.03	7.11	98.03
FastV	7.018	81.69	6.989	74.27	6.968	69.52
SparseVLM	7.003	81.02	6.961	72.61	6.954	70.53
DivPrune	6.961	79.69	6.925	73.16	6.911	69.04
VLA-Cache	7.082	88.32	7.067	83.79	7.032	79.69
VLA-IAP	6.998	77.96	6.932	72.08	6.882	65.79

表格说明: VLA-IAP 在所有保留率下实现最低延迟和最低内存占用。30% 保留率下 65.79ms（vs. Vanilla 98.03ms），内存降至 6.882GB。

Table 5: 真实机器人实验

指标	Simple	Long	Dual-Arm	Avg.
成功率 (%)
π₀.₅ (base)	80.0	64.0	44.0	62.7
VLA-IAP	84.0	68.0	44.0	65.3
延迟 (ms)
π₀.₅ (base)	88.1	—	124.3	—
VLA-IAP	59.7 (1.48×)	—	84.6 (1.47×)	—

表格说明: 真实场景验证——VLA-IAP 在提升成功率的同时（+2.6%）实现 ~1.48× 延迟降低。

Table 6: 跨模型硬件效率分析

Method	DreamVLA CALVIN			DreamVLA LIBERO			π₀ LIBERO
	Mem (GB)	Time (ms)	Ratio	Mem (GB)	Time (ms)	Ratio	Mem (GB)	Time (ms)	Ratio
Vanilla	2.810	120.28	—	2.661	101.47	—	6.214	94.13	—
FastV	2.771	99.40	1.21×	2.626	84.55	1.20×	6.135	79.44	1.18×
SparseVLM	2.764	99.41	1.21×	2.621	83.85	1.21×	6.117	79.80	1.18×
DivPrune	2.756	97.79	1.23×	2.615	82.49	1.23×	6.109	76.53	1.23×
VLA-Cache	2.798	102.43	1.17×	2.634	85.99	1.18×	6.185	84.85	1.11×
VLA-IAP	2.747	98.21	1.22×	2.610	81.89	1.24×	6.098	75.44	1.25×

表格说明: 跨三个不同配置验证了 VLA-IAP 的通用硬件效率提升（1.22-1.25×）。

Table 7: VLABench 细粒度任务性能

Method	Con.	Flower	Book	Chem.	Drink	Fruit	Mahj.	Paint.	Poker	Toy	Avg.
70% Retention
Baseline	56.0	20.0	54.0	36.0	42.0	42.0	32.0	30.0	52.0	28.0	39.2
FastV	44.0	2.0	38.8	35.4	18.0	2.0	2.1	28.0	32.0	2.0	20.4
SparseVLM	50.0	0.0	52.2	28.6	28.6	4.0	8.1	32.0	26.0	4.0	23.4
DivPrune	6.0	0.0	8.0	6.0	12.2	2.0	2.0	22.0	2.0	2.0	6.2
VLA-Cache	42.0	10.0	42.9	30.0	32.0	30.0	24.4	32.0	48.0	6.0	29.7
VLA-IAP	55.0	12.0	40.4	41.7	42.0	26.0	26.1	36.0	48.0	10.0	33.7
50% Retention
FastV	16.0	0.0	25.6	8.2	18.4	0.0	2.1	22.0	2.0	0.0	9.4
SparseVLM	12.0	0.0	25.6	4.1	20.0	0.0	4.3	30.0	2.0	0.0	9.8
DivPrune	4.0	0.0	22.0	10.0	16.3	0.0	4.3	22.0	2.0	0.0	8.1
VLA-Cache	16.8	0.0	23.9	14.0	12.0	0.0	8.2	30.0	11.3	0.0	11.6
VLA-IAP	48.9	6.0	29.8	27.1	28.6	14.0	10.6	32.0	42.0	6.0	24.5
30% Retention
FastV	0.0	0.0	21.5	0.0	4.3	0.0	2.1	22.0	0.0	0.0	5.0
SparseVLM	18.0	0.0	6.5	0.0	12.2	0.0	0.0	26.0	2.0	0.0	6.5
DivPrune	4.0	0.0	10.6	0.0	4.2	0.0	4.1	16.0	0.0	0.0	3.9
VLA-Cache	16.8	0.0	4.0	0.0	10.0	0.0	0.0	24.0	0.0	0.0	5.5
VLA-IAP	46.0	4.0	21.7	8.2	16.3	8.2	8.5	32.0	22.0	4.0	17.1

表格说明: VLABench 细粒度任务下，VLA-IAP 在几乎所有子任务上领先，尤其在 Construction（需精细操作边界）和 Poker（需精确定位）任务上优势显著。

Table 8: 边缘检测算子消融

Method	Spa.	Obj.	Goal	Long	Avg.	Latency (ms)
OpenVLA-OFT (Base)	98.6	98.2	96.6	94.8	97.1	123.2
VLA-IAP (Canny)	97.2	98.8	97.4	93.8	96.8	104.5
VLA-IAP (HED)	97.4	99.6	98.2	94.4	97.4	125.1
VLA-IAP (BDCN)	97.6	99.0	98.2	95.2	97.5	132.8
VLA-IAP (Sobel)	97.6	99.6	98.4	95.6	97.8	98.6

关键发现: Sobel 在性能（97.8%）和延迟（98.6ms）上均为最优。HED/BDCN 等深度学习边缘检测器虽性能接近但引入额外延迟，不适合实时场景。Canny 性能略低（96.8%）。验证了轻量级传统算子在此任务上的有效性。

实验

数据集

数据集	规模	特点	用途
LIBERO	4 子任务集	空间/物体/目标/长时序泛化	仿真主评估
CALVIN	A/B/C/D 4个环境	长时序语言条件策略学习	仿真评估
VLABench	100类任务, 2000+ 3D物体	复杂长时序推理, 强域随机化	仿真挑战评估
Real Robot	3类任务	双臂, 全局+腕部相机	真实场景验证

实现细节

VLA Backbone: OpenVLA-OFT (7B), DreamVLA, π₀, π₀.₅

边缘检测: Sobel 算子（ $3 \times 3$ 核）

关键超参数:

温度系数 $\tau = 0.01$
运动衰减因子 $\gamma = 0.7$
灵敏度系数 $k = 0.5$ （最优）
IoU 阈值 $\theta_{\text{iou}} = 0.05$ （最优）
边缘权重 $w_{\text{edge}} = 1.0$ （最优）

硬件: NVIDIA A100

保留率: 70% / 50% / 30%

可视化结果

Figure 5 展示了 Conservative → Aggressive 模式的动态切换过程

Figure 7-8 验证了几何先验在不同视角下的边缘检测鲁棒性

Figure 9 确认了剪枝选择与 LLM 注意力分布的高度一致性

批判性思考

优点

无训练即插即用: 不需要重新训练或微调 VLA 模型，直接在推理时应用

范式创新: Interaction-First 思路比 Perception-First 更符合机器人操作的物理本质，独立于 VLM 的语义偏置

鲁棒的极端压缩: 30% 保留率下仍维持 97.1%（完全匹配未剪枝性能），这在同类方法中非常罕见

跨模型泛化: 在 4 种不同 VLA 架构上验证有效性

真实场景验证: 不仅是仿真，还有真实双臂机器人实验

局限性

Sobel 算子的局限: 对弱纹理、半透明物体的边缘检测可能不够鲁棒

IoU 阈值敏感性: 从消融实验看， $\theta_{\text{iou}}$ 在 0.02-0.10 间对性能和加速比影响较大，可能需要针对不同场景调参

二阶时间差分需要历史帧: 前两帧无法计算运动先验，对任务初始阶段可能有影响

VLABench 绝对性能仍有差距: 虽然远超其他剪枝方法，但在 30% 保留率下 VLABench 成功率（17.1%）远低于未剪枝 baseline（39.2%），说明复杂任务下激进剪枝仍有信息损失

潜在改进方向

将几何先验从 Sobel 升级为轻量级学习型边缘检测（如蒸馏后的 HED），在不显著增加延迟的前提下提升边缘质量

探索自适应保留率——根据场景复杂度动态调整而非固定比例

结合 KV-Cache 压缩进一步加速 LLM 推理部分

在更多真实场景和更长时间尺度的任务上验证鲁棒性

可复现性评估

代码开源（项目主页 VLA-IAP.com 已公布）
预训练模型（无训练方法，不需要额外模型）
训练细节完整（超参数、消融实验详细）
数据集可获取（LIBERO, CALVIN, VLABench 均公开）

关联笔记

基于

OpenVLA: 主要验证的 VLA backbone

FastV: VLM 视觉 token 剪枝的先驱方法

VLA-Cache: 动态 VLA token 缓存方法

对比

FastV: 静态注意力剪枝，VLA 场景下性能退化严重

SparseVLM: 稀疏注意力方法，同样依赖模型注意力偏置

EfficientVLA: 动态剪枝，1.54× 加速但性能退化严重（88.9%）

VLA-Cache: 背景缓存策略，极端压缩下灾难性失败

方法相关

Visual Token Pruning: 核心技术——视觉 token 剪枝

Sobel 边缘检测: 几何先验的核心——轻量级边缘检测

IoU: 交互对齐策略的门控信号

EMA: 运动历史累积

形态学操作: 运动区域空间连通性增强

硬件/数据相关

LIBERO: 主要仿真评估基准

速查卡片

VLA-IAP: Training-Free Visual Token Pruning via Interaction Alignment for Vision-Language-Action Models

核心: Interaction-First 范式，通过几何先验 + 语义-运动 IoU 对齐实现 VLA 模型的无训练视觉 token 剪枝
方法: Sobel 边缘检测保护结构锚点 + 二阶时间差分运动先验 + IoU 门控 Conservative/Aggressive 模式切换
结果: LIBERO 97.8% 成功率 + 1.25× 加速（70%保留）；97.1% + 1.54× 加速（30%保留）
代码: VLA-IAP.com

笔记创建时间: 2026-03-26