MambaVision
分类: 网络架构
MambaVision
定义
MambaVision 是基于 State Space Model (SSM/Mamba) 的视觉骨干网络,将 Mamba 的线性复杂度序列建模能力引入计算机视觉任务,作为 ViT 的高效替代方案。
核心要点
结合 Mamba(SSM)和注意力机制的混合架构
利用 Mamba 的线性复杂度处理长序列,避免 ViT 的二次方注意力开销
在 ImageNet 分类上达到与 ViT 可比的性能,推理效率更高
可作为 VLM 的视觉编码器替代 ViT
代表工作
MambaVision (Hatamizadeh & Kautz, 2024): NVIDIA 提出的 Mamba-attention 混合视觉模型