MuSiQue

分类: 数据集与评估

MuSiQue

定义

多跳问答数据集,通过组合多个单跳问题构造需要 2-4 跳推理的复杂问题,专门设计用于评估真实多跳推理能力而非模式匹配。

核心要点

抗捷径设计:相比 HotpotQA,MuSiQue 通过负样本过滤和分解验证,更难被无真正推理链的模型欺骗

多跳深度:2跳、3跳、4跳问题,跳数增加推理难度显著增大

分解可验证:每个问题附带分解子问题,可评估模型是否真正完成了推理链

常用于评估:长上下文 LLM、RAG 系统、记忆增强模型

代表工作

MSA: 在 MuSiQue 上评估了稀疏注意力记忆模型的多跳推理能力

Trivedi et al. (2022): 原始论文,ACL 2022

相关概念

NarrativeQA

RAG

LongBench