NarrativeQA
分类: 数据集与评估
NarrativeQA
定义
基于完整书籍和电影剧本的阅读理解问答数据集,要求模型在超长文本(平均 60K+ tokens)上进行多跳推理和自由文本回答。
数学形式
评估指标:BLEU、ROUGE-L、F1(与参考答案的词级重叠)。
核心要点
长文本挑战:文档长度远超标准 LLM 上下文窗口,考验长上下文建模能力
自由文本回答:不同于抽取式 QA,需要生成连贯的自然语言答案
多跳推理:答案往往需要跨多个段落整合信息
常用于评估:长上下文 LLM、RAG 系统、记忆增强模型(如 MSA、MemAgent)
代表工作
MSA: 在 NarrativeQA 上验证了 100M token 级别记忆模型的性能
Kočiský et al. (2018): 原始论文,来自 DeepMind