HumanEval

分类: 数据集与评估

定义

OpenAI 发布的代码生成评测基准，包含 164 个手写 Python 编程题，每题附带函数签名、docstring 和单元测试

代码生成领域最广泛使用的基准之一，评测 LLM 的函数级代码补全能力

核心指标为 pass@k：生成 k 个候选解，至少有一个通过所有测试用例的概率

局限性：题目数量少（164 题）、难度偏简单、存在数据泄露风险（大量模型训练数据可能包含这些题目）

后续衍生版本：HumanEval+（增强测试用例）、HumanEval-XL（多语言版本）

Codex (OpenAI, 2021): 随 HumanEval 一同发布

SSD (Apple, 2026): 使用 HumanEval 作为辅助评测基准