BoolQ

分类: 数据集与评估

BoolQ

定义

Boolean Questions 数据集,包含自然产生的 yes/no 阅读理解问题,每个问题附带一段 Wikipedia 段落作为上下文

核心要点

由 Clark et al. (2019) 提出

包含约 16K 个问题,均为二分类(Yes/No)

问题来自真实用户搜索查询,具有自然语言多样性

常用于评估 LLM 的阅读理解和常识推理能力

评估指标为 accuracy

代表工作

DieT: 作为 7 个 zero-shot benchmark 之一

相关概念

HellaSwag

WinoGrande

MMLU