CS224N / 学习笔记

TruthfulQA

分类: 数据集与评估

TruthfulQA

定义

评估语言模型生成真实且有信息量回答的能力的 benchmark，包含 817 个跨 38 个类别的问题，专门针对模型容易产生幻觉或重复常见误解的场景

核心要点

问题设计利用了人类常见误解和模型训练数据中的偏见

评估两个维度：真实性（Truthfulness）和信息量（Informativeness）

模型越大反而越容易产生”自信的错误答案”（inverse scaling 现象）

广泛用于评估 LLM 的可靠性和幻觉程度

代表工作

Lin et al. (2022): “TruthfulQA: Measuring How Models Mimic Human Falsehoods” (ACL 2022)

相关概念

MMLU: 知识评估 benchmark

HellaSwag: 常识推理 benchmark

BBH: 推理能力 benchmark