CS224N / 学习笔记

#MMLU #benchmark #evaluation #多任务 #知识评测

Measuring Massive Multitask Language Understanding

作者: Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, Jacob Steinhardt 年份: 2021 会议: ICLR 分类: 数据集与评估

论文笔记：MMLU-Paper

一句话总结

提出 MMLU（Massive Multitask Language Understanding）基准，覆盖 57 个学科的 15,908 道选择题，用于评测语言模型的广泛知识和推理能力。

核心贡献

大规模多学科评测：覆盖 STEM、人文、社科、专业领域（法律、医学、会计等）57 个科目，从初中到专家难度，全面评估模型的知识储备
评测协议标准化：统一采用 4 选 1 的多项选择题格式，支持 zero-shot 和 few-shot 评估，结果可复现且跨模型可比
暴露知识短板：当时最强的 GPT-3 在 MMLU 上仅达 ~43.9%（随机为 25%），揭示了大模型在专业知识领域的显著不足
广泛采用：成为 LLM 评测的核心基准之一，几乎所有后续大模型论文都报告 MMLU 分数，推动了知识密集型预训练和微调研究

相关概念

MMLU
NLP评测
Few-Shot Learning
知识评测
大语言模型