MuSiQue

分类: 数据集与评估

定义

多跳问答数据集，通过组合多个单跳问题构造需要 2-4 跳推理的复杂问题，专门设计用于评估真实多跳推理能力而非模式匹配。

抗捷径设计：相比 HotpotQA，MuSiQue 通过负样本过滤和分解验证，更难被无真正推理链的模型欺骗

多跳深度：2跳、3跳、4跳问题，跳数增加推理难度显著增大

分解可验证：每个问题附带分解子问题，可评估模型是否真正完成了推理链

常用于评估：长上下文 LLM、RAG 系统、记忆增强模型

MSA: 在 MuSiQue 上评估了稀疏注意力记忆模型的多跳推理能力

Trivedi et al. (2022): 原始论文，ACL 2022