BoolQ
分类: 数据集与评估
BoolQ
定义
Boolean Questions 数据集,包含自然产生的 yes/no 阅读理解问题,每个问题附带一段 Wikipedia 段落作为上下文
核心要点
由 Clark et al. (2019) 提出
包含约 16K 个问题,均为二分类(Yes/No)
问题来自真实用户搜索查询,具有自然语言多样性
常用于评估 LLM 的阅读理解和常识推理能力
评估指标为 accuracy
代表工作
DieT: 作为 7 个 zero-shot benchmark 之一