LLaVA
分类: 网络架构
LLaVA
定义
LLaVA (Large Language and Vision Assistant) 是一种大型视觉语言模型,通过视觉编码器(如 CLIP-ViT)将图像转换为视觉 token,再与文本 token 一起输入 LLM 进行多模态理解和对话。
核心要点
架构: 视觉编码器 (CLIP-ViT) + MLP 投影层 + 大语言模型 (LLaMA)
训练分两阶段: 预训练(对齐视觉-语言特征)+ 指令微调
LLaVA-1.5 改进: 使用 MLP 投影替代线性投影,引入更高分辨率输入
视觉 token 数量(如 576)是推理效率的主要瓶颈,催生了 Token Pruning 等压缩方法
代表工作
Liu et al. (2023): LLaVA 原始论文
Liu et al. (2024): LLaVA-1.5,改进版本
Col-Ln: 在 LLaVA-1.5-7B 上验证 token pruning 效果
PruMerge: LLaVA 的 token 剪枝+合并方法
VisPruner: LLaVA 的视觉 token 剪枝方法