VLA

分类: 网络架构

VLA

定义

Vision-Language-Action 模型,将预训练视觉-语言模型与机器人动作预测结合的具身智能基础模型,能根据语言指令和视觉观测生成机器人控制动作

核心要点

典型架构:视觉编码器 + LLM backbone + 动作解码头

利用大规模预训练的视觉-语言理解能力实现零样本/少样本泛化

主要挑战:高分辨率多视角输入导致推理延迟大(通常 <5 Hz),难以满足闭环控制实时性

动作表示:离散 token(RT-1/RT-2)或连续向量(π₀, OpenVLA-OFT)

代表性架构演进:RT-1 → RT-2 → OpenVLA → π₀ → CogACT

代表工作

OpenVLA: 开源 VLA,集成多源机器人数据集

VLA-IAP: 针对 VLA 的无训练视觉 token 剪枝

EfficientVLA: VLA 推理加速方法

VLA-Cache: VLA 视觉 token 缓存方法

相关概念

CLIP

LLaMA

Visual Token Pruning