OpenVLA
分类: 网络架构
OpenVLA
定义
OpenVLA 是一个开源的 Vision-Language-Action 模型,将视觉语言模型扩展到机器人控制任务,通过联合视觉、语言和动作模态的推理实现机器人操作。
核心要点
基于预训练 VLM 架构,增加动作预测 head
支持语言指令驱动的机器人操作
开源可复现,是 VLA 研究的重要 baseline
参数量较大,在边缘设备上的推理效率是主要瓶颈
代表工作
OpenVLA (Kim et al., 2024): 开源 VLA 模型