LiveCodeBench
分类: 数据集与评估
LiveCodeBench
定义
持续更新的代码生成评测基准,从 LeetCode、AtCoder、Codeforces 等竞赛平台收集新题目,避免数据污染问题
核心要点
解决了 HumanEval 等静态基准的数据泄露问题:题目持续更新,模型训练数据中不太可能包含最新题目
按时间版本化(如 v6),方便追踪模型在不同时期的真实能力
评测维度包括 pass@1、pass@k 等标准代码生成指标
Apple SSD 论文中在 LCB v6 上将 Qwen3-30B 的 pass@1 从 42.4% 提升到 55.3%
代表工作
SSD (Apple, 2026): 使用 LiveCodeBench v6 作为主要评测基准