NVILA
分类: 网络架构
NVILA
定义
NVILA 是 NVIDIA 推出的高效视频多模态大模型,通过视觉 token 压缩和架构优化在视频理解任务上实现高效推理
核心要点
基于 VILA 架构的效率优化版本
重点优化视频输入的 token 数量,支持长视频理解
在 VideoMME、MLVU 等 benchmark 上表现优秀
相关概念
ViT — 视觉编码器骨架
Token Merging — token 压缩策略
分类: 网络架构
NVILA 是 NVIDIA 推出的高效视频多模态大模型,通过视觉 token 压缩和架构优化在视频理解任务上实现高效推理
基于 VILA 架构的效率优化版本
重点优化视频输入的 token 数量,支持长视频理解
在 VideoMME、MLVU 等 benchmark 上表现优秀
ViT — 视觉编码器骨架
Token Merging — token 压缩策略