HotpotQA

分类: 数据集与评估

HotpotQA

定义

多跳问答数据集,每个问题需要整合来自维基百科两个不同文章的信息进行推理,同时提供支持句子(supporting facts)作为可解释性监督。

核心要点

双文档推理:每个问题需要跨两篇文档推理,标准难度的多跳 QA 基准

全文档设置(fullwiki):检索 + 阅读的联合任务,考验 RAG 系统和长上下文模型

支持句子标注:提供 supporting facts 标签,可同时评估答案和推理链

广泛使用:是多跳 QA 领域最常用的基准之一

代表工作

MSA: 在 HotpotQA fullwiki 上验证了大规模记忆模型的检索推理能力

Yang et al. (2018): 原始论文,EMNLP 2018

相关概念

MuSiQue

NarrativeQA

RAG