LLaVA-OneVision
分类: 网络架构
LLaVA-OneVision
定义
LLaVA 系列的统一视觉语言模型,支持图像、多图和视频理解,使用 SigLIP 视觉编码器和 Qwen2 语言模型
核心要点
视觉编码器:SigLIP(384×384 输入,729 个视觉 token)
语言模型:Qwen2.5-7B
支持单图、多图、视频多种输入模态
规模:0.5B / 7B / 72B 多种尺寸
在多个多模态 benchmark 上达到 SOTA
代表工作
IWP: 作为主要评测模型,验证 token pruning 的有效性