VLA

分类: 网络架构

定义

Vision-Language-Action 模型，将预训练视觉-语言模型与机器人动作预测结合的具身智能基础模型，能根据语言指令和视觉观测生成机器人控制动作

典型架构：视觉编码器 + LLM backbone + 动作解码头

利用大规模预训练的视觉-语言理解能力实现零样本/少样本泛化

主要挑战：高分辨率多视角输入导致推理延迟大（通常 <5 Hz），难以满足闭环控制实时性

动作表示：离散 token（RT-1/RT-2）或连续向量（π₀, OpenVLA-OFT）

代表性架构演进：RT-1 → RT-2 → OpenVLA → π₀ → CogACT

OpenVLA: 开源 VLA，集成多源机器人数据集

VLA-IAP: 针对 VLA 的无训练视觉 token 剪枝

EfficientVLA: VLA 推理加速方法

VLA-Cache: VLA 视觉 token 缓存方法