WinoGrande

分类: 数据集与评估

WinoGrande

定义

大规模 Winograd Schema Challenge 数据集,用于测试常识推理中的代词消歧能力

核心要点

由 Sakaguchi et al. (2020) 提出

包含约 44K 个问题,比原始 Winograd Schema 大两个数量级

采用 adversarial filtering 去除标注偏差

评估指标为 accuracy (acc_norm)

常用于评估 LLM 的常识推理能力

代表工作

DieT: 作为 7 个 zero-shot benchmark 之一

相关概念

HellaSwag

BoolQ

MMLU