NVILA

分类: 网络架构

NVILA

定义

NVILA 是 NVIDIA 推出的高效视频多模态大模型,通过视觉 token 压缩和架构优化在视频理解任务上实现高效推理

核心要点

基于 VILA 架构的效率优化版本

重点优化视频输入的 token 数量,支持长视频理解

在 VideoMME、MLVU 等 benchmark 上表现优秀

相关概念

ViT — 视觉编码器骨架

Token Merging — token 压缩策略