VideoMME

分类: 数据集与评估

VideoMME

定义

全面的视频多模态大模型评估基准,覆盖短/中/长视频(最长1小时),包含字幕、音频多模态输入,评估视频理解、时序推理、多模态融合等能力。

核心要点

多时长覆盖:短视频(<2min)、中视频(2-15min)、长视频(>15min,最长1h)

多模态:支持视频帧 + 字幕 + 音频的多模态评估

多任务:感知(Perception)、推理(Reasoning)、理解(Understanding)三大类

用于评估:视频 token 压缩方法的性能损失(如 AutoGaze 的 4x-100x 压缩评估)

代表工作

AutoGaze(TIDE 等): 在 VideoMME 上验证 token 压缩方法的质量保留

Fu et al. (2024): 原始论文,CVPR 2024

相关概念

VideoMAE

Token Merging

MMLU