OpenVLA

分类: 网络架构

OpenVLA

定义

OpenVLA 是一个开源的 Vision-Language-Action 模型,将视觉语言模型扩展到机器人控制任务,通过联合视觉、语言和动作模态的推理实现机器人操作。

核心要点

基于预训练 VLM 架构,增加动作预测 head

支持语言指令驱动的机器人操作

开源可复现,是 VLA 研究的重要 baseline

参数量较大,在边缘设备上的推理效率是主要瓶颈

代表工作

OpenVLA (Kim et al., 2024): 开源 VLA 模型

相关概念

ViT

CLIP