NarrativeQA

分类: 数据集与评估

NarrativeQA

定义

基于完整书籍和电影剧本的阅读理解问答数据集,要求模型在超长文本(平均 60K+ tokens)上进行多跳推理和自由文本回答。

数学形式

F1=2precisionrecallprecision+recall\text{F1} = \frac{2 \cdot \text{precision} \cdot \text{recall}}{\text{precision} + \text{recall}}

评估指标:BLEU、ROUGE-L、F1(与参考答案的词级重叠)。

核心要点

长文本挑战:文档长度远超标准 LLM 上下文窗口,考验长上下文建模能力

自由文本回答:不同于抽取式 QA,需要生成连贯的自然语言答案

多跳推理:答案往往需要跨多个段落整合信息

常用于评估:长上下文 LLM、RAG 系统、记忆增强模型(如 MSA、MemAgent)

代表工作

MSA: 在 NarrativeQA 上验证了 100M token 级别记忆模型的性能

Kočiský et al. (2018): 原始论文,来自 DeepMind

相关概念

RAG

LongBench

MMLU