CS224N / 学习笔记

Qwen2.5-VL

分类: 网络架构

Qwen2.5-VL

定义

阿里通义千问团队的多模态视觉语言模型，支持动态分辨率输入和视频理解

核心要点

动态分辨率 ViT 编码器：根据输入图像自适应调整 token 数量

规模：3B / 7B / 32B / 72B

视觉 token 数量随图像分辨率变化，高分辨率下 token 数更多

在文档理解（DocVQA）等任务上表现突出

代表工作

IWP: 在 Qwen2.5-VL-7B 和 32B 上验证 token pruning 的跨模型泛化性

相关概念

LLaVA-OneVision