ScanQA
分类: 数据集与评估
ScanQA
定义
基于 ScanNet 室内场景的 3D 场景问答数据集,要求模型根据 3D 点云回答自然语言问题
核心要点
输入为 ScanNet 的 3D 点云重建场景 + 自然语言问题
问题涉及物体属性、空间关系、数量计数等多种类型
评估指标包括 BLEU、CIDEr、EM 等文本生成指标
是 3D 视觉-语言理解的重要基准之一
代表工作
Azuma et al. (2022): ScanQA — 3D Question Answering for Spatial Scene Understanding