Vision-Language Models

分类: 视觉任务

Vision-Language Models

定义

同时处理视觉和语言信息的多模态模型,能够理解图像内容并进行视觉问答、图像描述、视觉推理等任务

核心要点

架构范式:视觉编码器(ViT)+ 连接模块(Q-Former/线性投影)+ LLM 解码器

训练阶段:大规模图文对预训练(对齐)→ 指令微调(交互能力)→ RLHF(偏好对齐)

核心挑战:幻觉(描述图中不存在的物体)、细粒度视觉理解、高分辨率处理效率

代表工作

CLIP (Radford et al., 2021): 对比学习实现视觉-语言对齐

LLaVA (Liu et al., 2023): 视觉指令微调的开源 VLM

GPT-4V (OpenAI, 2023): 商业化多模态大模型

相关概念

Positional Encoding

Hallucination

Fine-tuning