LVLM
分类: 网络架构
LVLM
定义
将大型语言模型(LLM)与视觉编码器结合,能同时理解图像和文本的多模态模型
核心要点
典型架构:视觉编码器(如 CLIP-ViT)→ 投影层 → LLM(如 Vicuna、Qwen)
视觉 token 数量是效率瓶颈(如 LLaVA-NeXT 2880 tokens)
主要效率优化方向:视觉 token 剪枝/合并、KV-Cache 压缩、模型量化
代表模型家族:LLaVA、Qwen-VL、InternVL、GPT-4V
代表工作
LLaVA: 开源 LVLM 先驱
Qwen2.5-VL: 动态分辨率,无 CLS token 设计
ResPrune: 针对 LVLM 的 training-free 视觉 token 剪枝