VideoMME
分类: 数据集与评估
VideoMME
定义
全面的视频多模态大模型评估基准,覆盖短/中/长视频(最长1小时),包含字幕、音频多模态输入,评估视频理解、时序推理、多模态融合等能力。
核心要点
多时长覆盖:短视频(<2min)、中视频(2-15min)、长视频(>15min,最长1h)
多模态:支持视频帧 + 字幕 + 音频的多模态评估
多任务:感知(Perception)、推理(Reasoning)、理解(Understanding)三大类
用于评估:视频 token 压缩方法的性能损失(如 AutoGaze 的 4x-100x 压缩评估)
代表工作
AutoGaze(TIDE 等): 在 VideoMME 上验证 token 压缩方法的质量保留
Fu et al. (2024): 原始论文,CVPR 2024