MuSiQue
分类: 数据集与评估
MuSiQue
定义
多跳问答数据集,通过组合多个单跳问题构造需要 2-4 跳推理的复杂问题,专门设计用于评估真实多跳推理能力而非模式匹配。
核心要点
抗捷径设计:相比 HotpotQA,MuSiQue 通过负样本过滤和分解验证,更难被无真正推理链的模型欺骗
多跳深度:2跳、3跳、4跳问题,跳数增加推理难度显著增大
分解可验证:每个问题附带分解子问题,可评估模型是否真正完成了推理链
常用于评估:长上下文 LLM、RAG 系统、记忆增强模型
代表工作
MSA: 在 MuSiQue 上评估了稀疏注意力记忆模型的多跳推理能力
Trivedi et al. (2022): 原始论文,ACL 2022