LongBench

分类: 数据集与评估

LongBench

定义

LongBench 是首个双语(中英文)多任务长上下文理解基准测试,涵盖 6 大类 21 个任务,评估 LLM 在长文本(平均 6k-25k tokens)场景下的理解和推理能力。

核心要点

6 大任务类别:单文档 QA、多文档 QA、摘要、Few-shot 学习、合成任务、代码补全

支持中英双语评估,覆盖真实场景

评估长上下文窗口的有效利用能力(不只是支持长输入,还要真正利用)

LongBench v2 进一步扩展到更长上下文和更多任务

被 KV cache 压缩、稀疏注意力等高效推理工作广泛采用

代表工作

Bai et al., 2023: “LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding”

在 Slow-Fast Inference、SnapKV 等工作中作为评估基准

相关概念

MMLU

GPQA

StreamingLLM