LLaVA

分类: 网络架构

LLaVA

定义

LLaVA (Large Language and Vision Assistant) 是一种大型视觉语言模型,通过视觉编码器(如 CLIP-ViT)将图像转换为视觉 token,再与文本 token 一起输入 LLM 进行多模态理解和对话。

核心要点

架构: 视觉编码器 (CLIP-ViT) + MLP 投影层 + 大语言模型 (LLaMA)

训练分两阶段: 预训练(对齐视觉-语言特征)+ 指令微调

LLaVA-1.5 改进: 使用 MLP 投影替代线性投影,引入更高分辨率输入

视觉 token 数量(如 576)是推理效率的主要瓶颈,催生了 Token Pruning 等压缩方法

代表工作

Liu et al. (2023): LLaVA 原始论文

Liu et al. (2024): LLaVA-1.5,改进版本

Col-Ln: 在 LLaVA-1.5-7B 上验证 token pruning 效果

PruMerge: LLaVA 的 token 剪枝+合并方法

VisPruner: LLaVA 的视觉 token 剪枝方法

相关概念

ViT

Token Pruning

PruMerge

VisPruner