Benchmarking

分类: 数据集与评估

Benchmarking

定义

使用标准化数据集和评估协议对模型进行系统性性能测量和比较的方法论,是机器学习研究的可复现性基石

核心要点

NLP/LLM 核心基准:GLUE/SuperGLUE(语言理解)、MMLU(知识)、GSM8K/MATH(数学推理)、HumanEval(代码)

基准生命周期问题:数据污染(benchmark contamination)导致分数虚高、基准饱和后区分力下降

趋势:从静态基准走向动态基准(LiveBench)、从单一指标走向多维评估(HELM)

代表工作

Wang et al. (2019): “SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding”

Hendrycks et al. (2021): “Measuring Massive Multitask Language Understanding” (MMLU)

相关概念

LLM Evaluation

LLM-as-Judge