MambaVision

分类: 网络架构

MambaVision

定义

MambaVision 是基于 State Space Model (SSM/Mamba) 的视觉骨干网络,将 Mamba 的线性复杂度序列建模能力引入计算机视觉任务,作为 ViT 的高效替代方案。

核心要点

结合 Mamba(SSM)和注意力机制的混合架构

利用 Mamba 的线性复杂度处理长序列,避免 ViT 的二次方注意力开销

在 ImageNet 分类上达到与 ViT 可比的性能,推理效率更高

可作为 VLM 的视觉编码器替代 ViT

代表工作

MambaVision (Hatamizadeh & Kautz, 2024): NVIDIA 提出的 Mamba-attention 混合视觉模型

相关概念

ViT

SigLIP

CLIP