LongBench
分类: 数据集与评估
LongBench
定义
LongBench 是首个双语(中英文)多任务长上下文理解基准测试,涵盖 6 大类 21 个任务,评估 LLM 在长文本(平均 6k-25k tokens)场景下的理解和推理能力。
核心要点
6 大任务类别:单文档 QA、多文档 QA、摘要、Few-shot 学习、合成任务、代码补全
支持中英双语评估,覆盖真实场景
评估长上下文窗口的有效利用能力(不只是支持长输入,还要真正利用)
LongBench v2 进一步扩展到更长上下文和更多任务
被 KV cache 压缩、稀疏注意力等高效推理工作广泛采用
代表工作
Bai et al., 2023: “LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding”
在 Slow-Fast Inference、SnapKV 等工作中作为评估基准