VideoMME

分类: 数据集与评估

定义

全面的视频多模态大模型评估基准，覆盖短/中/长视频（最长1小时），包含字幕、音频多模态输入，评估视频理解、时序推理、多模态融合等能力。

多时长覆盖：短视频（<2min）、中视频（2-15min）、长视频（>15min，最长1h）

多模态：支持视频帧 + 字幕 + 音频的多模态评估

多任务：感知（Perception）、推理（Reasoning）、理解（Understanding）三大类

用于评估：视频 token 压缩方法的性能损失（如 AutoGaze 的 4x-100x 压缩评估）

AutoGaze（TIDE 等）: 在 VideoMME 上验证 token 压缩方法的质量保留

Fu et al. (2024): 原始论文，CVPR 2024