CS224N / 学习笔记

LVLM

分类: 网络架构

LVLM

定义

将大型语言模型（LLM）与视觉编码器结合，能同时理解图像和文本的多模态模型

核心要点

典型架构：视觉编码器（如 CLIP-ViT）→ 投影层 → LLM（如 Vicuna、Qwen）

视觉 token 数量是效率瓶颈（如 LLaVA-NeXT 2880 tokens）

主要效率优化方向：视觉 token 剪枝/合并、KV-Cache 压缩、模型量化

代表模型家族：LLaVA、Qwen-VL、InternVL、GPT-4V

代表工作

LLaVA: 开源 LVLM 先驱

Qwen2.5-VL: 动态分辨率，无 CLS token 设计

ResPrune: 针对 LVLM 的 training-free 视觉 token 剪枝

相关概念

Visual Token Pruning