LLaVA-OneVision

分类: 网络架构

LLaVA-OneVision

定义

LLaVA 系列的统一视觉语言模型,支持图像、多图和视频理解,使用 SigLIP 视觉编码器和 Qwen2 语言模型

核心要点

视觉编码器:SigLIP(384×384 输入,729 个视觉 token)

语言模型:Qwen2.5-7B

支持单图、多图、视频多种输入模态

规模:0.5B / 7B / 72B 多种尺寸

在多个多模态 benchmark 上达到 SOTA

代表工作

IWP: 作为主要评测模型,验证 token pruning 的有效性

相关概念

LLaVA

SigLIP

LVLM

Qwen2.5-VL