HumanEval

分类: 数据集与评估

HumanEval

定义

OpenAI 发布的代码生成评测基准,包含 164 个手写 Python 编程题,每题附带函数签名、docstring 和单元测试

核心要点

代码生成领域最广泛使用的基准之一,评测 LLM 的函数级代码补全能力

核心指标为 pass@k:生成 k 个候选解,至少有一个通过所有测试用例的概率

局限性:题目数量少(164 题)、难度偏简单、存在数据泄露风险(大量模型训练数据可能包含这些题目)

后续衍生版本:HumanEval+(增强测试用例)、HumanEval-XL(多语言版本)

代表工作

Codex (OpenAI, 2021): 随 HumanEval 一同发布

SSD (Apple, 2026): 使用 HumanEval 作为辅助评测基准

相关概念

LiveCodeBench