FAST
分类: 高效推理与部署
FAST
定义
FAST(Fast Action STream tokenizer)是一种用于 VLA(Vision-Language-Action)模型的动作序列 tokenizer,通过将连续的机器人动作序列压缩为离散 token 来减少自回归解码的步数,加速推理。
核心要点
将连续的机器人动作轨迹(如关节角度、末端执行器位置)编码为离散 token 序列
通过时序压缩减少需要自回归生成的 token 数量,降低推理延迟
可与各种 VLA 模型(如 π₀、OpenVLA)配合使用
在”推理效率”指标上表现良好,但”体现效率”(实际任务完成率)可能不升反降
代表工作
FAST (Pertsch et al., 2025): 动作序列 tokenizer