LongBench

分类: 数据集与评估

定义

LongBench 是首个双语（中英文）多任务长上下文理解基准测试，涵盖 6 大类 21 个任务，评估 LLM 在长文本（平均 6k-25k tokens）场景下的理解和推理能力。

6 大任务类别：单文档 QA、多文档 QA、摘要、Few-shot 学习、合成任务、代码补全

支持中英双语评估，覆盖真实场景

评估长上下文窗口的有效利用能力（不只是支持长输入，还要真正利用）

LongBench v2 进一步扩展到更长上下文和更多任务

被 KV cache 压缩、稀疏注意力等高效推理工作广泛采用

Bai et al., 2023: “LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding”

在 Slow-Fast Inference、SnapKV 等工作中作为评估基准