CS224N / 学习笔记

LLaVA-OneVision

分类: 网络架构

LLaVA-OneVision

定义

LLaVA 系列的统一视觉语言模型，支持图像、多图和视频理解，使用 SigLIP 视觉编码器和 Qwen2 语言模型

核心要点

视觉编码器：SigLIP（384×384 输入，729 个视觉 token）

语言模型：Qwen2.5-7B

支持单图、多图、视频多种输入模态

规模：0.5B / 7B / 72B 多种尺寸

在多个多模态 benchmark 上达到 SOTA

代表工作

IWP: 作为主要评测模型，验证 token pruning 的有效性

相关概念