LLaVA

分类: 网络架构

定义

LLaVA (Large Language and Vision Assistant) 是一种大型视觉语言模型，通过视觉编码器（如 CLIP-ViT）将图像转换为视觉 token，再与文本 token 一起输入 LLM 进行多模态理解和对话。

架构: 视觉编码器 (CLIP-ViT) + MLP 投影层 + 大语言模型 (LLaMA)

训练分两阶段: 预训练（对齐视觉-语言特征）+ 指令微调

LLaVA-1.5 改进: 使用 MLP 投影替代线性投影，引入更高分辨率输入

视觉 token 数量（如 576）是推理效率的主要瓶颈，催生了 Token Pruning 等压缩方法

Liu et al. (2023): LLaVA 原始论文

Liu et al. (2024): LLaVA-1.5，改进版本

Col-Ln: 在 LLaVA-1.5-7B 上验证 token pruning 效果

PruMerge: LLaVA 的 token 剪枝+合并方法

VisPruner: LLaVA 的视觉 token 剪枝方法