VLA
分类: 网络架构
VLA
定义
Vision-Language-Action 模型,将预训练视觉-语言模型与机器人动作预测结合的具身智能基础模型,能根据语言指令和视觉观测生成机器人控制动作
核心要点
典型架构:视觉编码器 + LLM backbone + 动作解码头
利用大规模预训练的视觉-语言理解能力实现零样本/少样本泛化
主要挑战:高分辨率多视角输入导致推理延迟大(通常 <5 Hz),难以满足闭环控制实时性
动作表示:离散 token(RT-1/RT-2)或连续向量(π₀, OpenVLA-OFT)
代表性架构演进:RT-1 → RT-2 → OpenVLA → π₀ → CogACT
代表工作
OpenVLA: 开源 VLA,集成多源机器人数据集
VLA-IAP: 针对 VLA 的无训练视觉 token 剪枝
EfficientVLA: VLA 推理加速方法
VLA-Cache: VLA 视觉 token 缓存方法