BBH
分类: 数据集与评估
BBH
定义
BIG-Bench Hard 是从 BIG-Bench 中筛选出的 23 个高难度任务子集,专门用于评估语言模型在需要多步推理的任务上的表现
核心要点
筛选标准:人类表现显著优于语言模型的任务
涵盖逻辑推理、数学推理、常识推理、语言理解等多种能力
常与 Chain-of-Thought prompting 结合评估
是评估 LLM 推理能力的标准 benchmark 之一
代表工作
Suzgun et al. (2022): “Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them”
相关概念
MMLU: 另一个常用的 LLM 评估 benchmark