EfficientVLA

分类: 网络架构

EfficientVLA

定义

EfficientVLA 是一个面向机器人操控的高效 Vision-Language-Action 模型,通过架构优化和 token 压缩实现低延迟的动作预测

核心要点

VLA (Vision-Language-Action) 模型的效率优化版本

目标场景:机器人实时控制,对推理延迟敏感

结合视觉 token 压缩和轻量化语言模型骨干

代表工作

EfficientVLA: 高效 VLA 模型

相关概念

OpenVLA — 开源 VLA 基线模型

FastV — visual token pruning 可用于加速 VLA