Vision-Language Models

分类: 视觉任务

定义

同时处理视觉和语言信息的多模态模型，能够理解图像内容并进行视觉问答、图像描述、视觉推理等任务

架构范式：视觉编码器（ViT）+ 连接模块（Q-Former/线性投影）+ LLM 解码器

训练阶段：大规模图文对预训练（对齐）→ 指令微调（交互能力）→ RLHF（偏好对齐）

核心挑战：幻觉（描述图中不存在的物体）、细粒度视觉理解、高分辨率处理效率

CLIP (Radford et al., 2021): 对比学习实现视觉-语言对齐

LLaVA (Liu et al., 2023): 视觉指令微调的开源 VLM

GPT-4V (OpenAI, 2023): 商业化多模态大模型