CS224N / 学习笔记

LiveCodeBench

分类: 数据集与评估

LiveCodeBench

定义

持续更新的代码生成评测基准，从 LeetCode、AtCoder、Codeforces 等竞赛平台收集新题目，避免数据污染问题

核心要点

解决了 HumanEval 等静态基准的数据泄露问题：题目持续更新，模型训练数据中不太可能包含最新题目

按时间版本化（如 v6），方便追踪模型在不同时期的真实能力

评测维度包括 pass@1、pass@k 等标准代码生成指标

Apple SSD 论文中在 LCB v6 上将 Qwen3-30B 的 pass@1 从 42.4% 提升到 55.3%

代表工作

SSD (Apple, 2026): 使用 LiveCodeBench v6 作为主要评测基准

相关概念