ScanQA

分类: 数据集与评估

定义

基于 ScanNet 室内场景的 3D 场景问答数据集，要求模型根据 3D 点云回答自然语言问题

输入为 ScanNet 的 3D 点云重建场景 + 自然语言问题

问题涉及物体属性、空间关系、数量计数等多种类型

评估指标包括 BLEU、CIDEr、EM 等文本生成指标

是 3D 视觉-语言理解的重要基准之一

Azuma et al. (2022): ScanQA — 3D Question Answering for Spatial Scene Understanding