CS224N / 学习笔记

HellaSwag

分类: 数据集与评估

HellaSwag

定义

一个常识推理 benchmark，要求模型从四个选项中选择最合理的句子续写，通过对抗过滤构造出对模型困难但对人类简单的干扰项

核心要点

对抗过滤（Adversarial Filtering）：用模型生成干扰项，再筛选出最能骗过模型的选项

人类准确率 95.6%，当初 BERT 只有约 47%

现代 LLM 已接近甚至超过人类水平，但仍是标准评估套件的一部分

常用于评估 LLM 的常识推理和语言理解能力

代表工作

Zellers et al. (2019): “HellaSwag: Can a Machine Really Finish Your Sentence?” (ACL 2019)

相关概念

MMLU: 另一个常用 LLM benchmark

BBH: 推理能力评估 benchmark

TruthfulQA: 真实性评估 benchmark