InternVL3

分类: 网络架构

InternVL3

定义

InternVL3 是上海 AI Lab 推出的开源多模态大模型系列的最新版本,采用 InternViT + LLM 架构,支持图像和视频理解

核心要点

视觉编码器使用自研的 InternViT(6B 参数级)

支持动态分辨率输入,自适应切分图像为多个 tile

在 VQA、视频理解、文档理解等多个 benchmark 上位列开源 SOTA

是 token pruning/compression 研究的常用评测基座

相关概念

ViT — 视觉编码器基础

CLIP — 视觉-语言对齐范式