LVLM

分类: 网络架构

LVLM

定义

将大型语言模型(LLM)与视觉编码器结合,能同时理解图像和文本的多模态模型

核心要点

典型架构:视觉编码器(如 CLIP-ViT)→ 投影层 → LLM(如 Vicuna、Qwen)

视觉 token 数量是效率瓶颈(如 LLaVA-NeXT 2880 tokens)

主要效率优化方向:视觉 token 剪枝/合并、KV-Cache 压缩、模型量化

代表模型家族:LLaVA、Qwen-VL、InternVL、GPT-4V

代表工作

LLaVA: 开源 LVLM 先驱

Qwen2.5-VL: 动态分辨率,无 CLS token 设计

ResPrune: 针对 LVLM 的 training-free 视觉 token 剪枝

相关概念

ViT

Visual Token Pruning

KV-Cache