GPQA
分类: 数据集与评估
GPQA
定义
GPQA(Graduate-Level Google-Proof Question Answering)是一个研究生级别的问答基准测试,包含由领域专家编写的高难度多选题,即使使用搜索引擎也难以回答,用于评估 LLM 的深度推理和专业知识能力。
核心要点
题目涵盖物理、化学、生物等自然科学领域
“Google-Proof”设计:非专家即使搜索也只能达到约 34% 准确率
专家准确率约 65%,说明题目确实具有高难度
GPQA Diamond 是其高质量子集,常用于 LLM 评估
被广泛用于评估 LLM 的推理能力,尤其是 chain-of-thought 场景
代表工作
Rein et al., 2023: “GPQA: A Graduate-Level Google-Proof QA Benchmark”
在 Slow-Fast Inference 等高效推理工作中作为评估基准