Qwen2.5-VL

分类: 网络架构

Qwen2.5-VL

定义

阿里通义千问团队的多模态视觉语言模型,支持动态分辨率输入和视频理解

核心要点

动态分辨率 ViT 编码器:根据输入图像自适应调整 token 数量

规模:3B / 7B / 32B / 72B

视觉 token 数量随图像分辨率变化,高分辨率下 token 数更多

在文档理解(DocVQA)等任务上表现突出

代表工作

IWP: 在 Qwen2.5-VL-7B 和 32B 上验证 token pruning 的跨模型泛化性

相关概念

LLaVA-OneVision

LVLM

ViT