GSM8K
分类: 数据集与评估
GSM8K
定义
包含 8.5K 小学数学应用题的基准数据集,用于评估语言模型的数学推理能力
核心要点
每道题需要 2-8 步推理
答案为整数,便于自动评估
需要模型生成完整推理链(Chain-of-Thought),属于生成任务
是评估 LLM 数学推理能力的标准基准之一
对模型生成质量高度敏感,剪枝等压缩方法容易导致性能崩溃
代表工作
Pruning-on-Representations: 作为生成任务代表,展示剪枝后性能从 48.4 崩溃至 0.0 (Drop-8M)