GSM8K

分类: 数据集与评估

GSM8K

定义

包含 8.5K 小学数学应用题的基准数据集,用于评估语言模型的数学推理能力

核心要点

每道题需要 2-8 步推理

答案为整数,便于自动评估

需要模型生成完整推理链(Chain-of-Thought),属于生成任务

是评估 LLM 数学推理能力的标准基准之一

对模型生成质量高度敏感,剪枝等压缩方法容易导致性能崩溃

代表工作

Pruning-on-Representations: 作为生成任务代表,展示剪枝后性能从 48.4 崩溃至 0.0 (Drop-8M)

相关概念

MMLU

Chain-of-Thought

自回归解码