Qwen2.5-VL
分类: 网络架构
Qwen2.5-VL
定义
阿里通义千问团队的多模态视觉语言模型,支持动态分辨率输入和视频理解
核心要点
动态分辨率 ViT 编码器:根据输入图像自适应调整 token 数量
规模:3B / 7B / 32B / 72B
视觉 token 数量随图像分辨率变化,高分辨率下 token 数更多
在文档理解(DocVQA)等任务上表现突出
代表工作
IWP: 在 Qwen2.5-VL-7B 和 32B 上验证 token pruning 的跨模型泛化性
分类: 网络架构
阿里通义千问团队的多模态视觉语言模型,支持动态分辨率输入和视频理解
动态分辨率 ViT 编码器:根据输入图像自适应调整 token 数量
规模:3B / 7B / 32B / 72B
视觉 token 数量随图像分辨率变化,高分辨率下 token 数更多
在文档理解(DocVQA)等任务上表现突出
IWP: 在 Qwen2.5-VL-7B 和 32B 上验证 token pruning 的跨模型泛化性