InternVL3
分类: 网络架构
InternVL3
定义
InternVL3 是上海 AI Lab 推出的开源多模态大模型系列的最新版本,采用 InternViT + LLM 架构,支持图像和视频理解
核心要点
视觉编码器使用自研的 InternViT(6B 参数级)
支持动态分辨率输入,自适应切分图像为多个 tile
在 VQA、视频理解、文档理解等多个 benchmark 上位列开源 SOTA
是 token pruning/compression 研究的常用评测基座
相关概念
ViT — 视觉编码器基础
CLIP — 视觉-语言对齐范式