GPQA

分类: 数据集与评估

GPQA

定义

GPQA(Graduate-Level Google-Proof Question Answering)是一个研究生级别的问答基准测试,包含由领域专家编写的高难度多选题,即使使用搜索引擎也难以回答,用于评估 LLM 的深度推理和专业知识能力。

核心要点

题目涵盖物理、化学、生物等自然科学领域

“Google-Proof”设计:非专家即使搜索也只能达到约 34% 准确率

专家准确率约 65%,说明题目确实具有高难度

GPQA Diamond 是其高质量子集,常用于 LLM 评估

被广泛用于评估 LLM 的推理能力,尤其是 chain-of-thought 场景

代表工作

Rein et al., 2023: “GPQA: A Graduate-Level Google-Proof QA Benchmark”

在 Slow-Fast Inference 等高效推理工作中作为评估基准

相关概念

MMLU

LongBench