BBH

分类: 数据集与评估

BBH

定义

BIG-Bench Hard 是从 BIG-Bench 中筛选出的 23 个高难度任务子集,专门用于评估语言模型在需要多步推理的任务上的表现

核心要点

筛选标准:人类表现显著优于语言模型的任务

涵盖逻辑推理、数学推理、常识推理、语言理解等多种能力

常与 Chain-of-Thought prompting 结合评估

是评估 LLM 推理能力的标准 benchmark 之一

代表工作

Suzgun et al. (2022): “Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them”

相关概念

MMLU: 另一个常用的 LLM 评估 benchmark