NarrativeQA

分类: 数据集与评估

定义

基于完整书籍和电影剧本的阅读理解问答数据集，要求模型在超长文本（平均 60K+ tokens）上进行多跳推理和自由文本回答。

$\text{F1} = \frac{2 \cdot \text{precision} \cdot \text{recall}}{\text{precision} + \text{recall}}$

评估指标：BLEU、ROUGE-L、F1（与参考答案的词级重叠）。

长文本挑战：文档长度远超标准 LLM 上下文窗口，考验长上下文建模能力

自由文本回答：不同于抽取式 QA，需要生成连贯的自然语言答案

多跳推理：答案往往需要跨多个段落整合信息

常用于评估：长上下文 LLM、RAG 系统、记忆增强模型（如 MSA、MemAgent）

MSA: 在 NarrativeQA 上验证了 100M token 级别记忆模型的性能

Kočiský et al. (2018): 原始论文，来自 DeepMind