WinoGrande
分类: 数据集与评估
WinoGrande
定义
大规模 Winograd Schema Challenge 数据集,用于测试常识推理中的代词消歧能力
核心要点
由 Sakaguchi et al. (2020) 提出
包含约 44K 个问题,比原始 Winograd Schema 大两个数量级
采用 adversarial filtering 去除标注偏差
评估指标为 accuracy (acc_norm)
常用于评估 LLM 的常识推理能力
代表工作
DieT: 作为 7 个 zero-shot benchmark 之一