HumanEval
分类: 数据集与评估
HumanEval
定义
OpenAI 发布的代码生成评测基准,包含 164 个手写 Python 编程题,每题附带函数签名、docstring 和单元测试
核心要点
代码生成领域最广泛使用的基准之一,评测 LLM 的函数级代码补全能力
核心指标为 pass@k:生成 k 个候选解,至少有一个通过所有测试用例的概率
局限性:题目数量少(164 题)、难度偏简单、存在数据泄露风险(大量模型训练数据可能包含这些题目)
后续衍生版本:HumanEval+(增强测试用例)、HumanEval-XL(多语言版本)
代表工作
Codex (OpenAI, 2021): 随 HumanEval 一同发布
SSD (Apple, 2026): 使用 HumanEval 作为辅助评测基准