Vision-Language Models
分类: 视觉任务
Vision-Language Models
定义
同时处理视觉和语言信息的多模态模型,能够理解图像内容并进行视觉问答、图像描述、视觉推理等任务
核心要点
架构范式:视觉编码器(ViT)+ 连接模块(Q-Former/线性投影)+ LLM 解码器
训练阶段:大规模图文对预训练(对齐)→ 指令微调(交互能力)→ RLHF(偏好对齐)
核心挑战:幻觉(描述图中不存在的物体)、细粒度视觉理解、高分辨率处理效率
代表工作
CLIP (Radford et al., 2021): 对比学习实现视觉-语言对齐
LLaVA (Liu et al., 2023): 视觉指令微调的开源 VLM
GPT-4V (OpenAI, 2023): 商业化多模态大模型