Measuring Massive Multitask Language Understanding
作者: Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, Jacob Steinhardt 年份: 2021 会议: ICLR 分类: 数据集与评估
论文笔记:MMLU-Paper
一句话总结
- 提出 MMLU(Massive Multitask Language Understanding)基准,覆盖 57 个学科的 15,908 道选择题,用于评测语言模型的广泛知识和推理能力。
核心贡献
- 大规模多学科评测:覆盖 STEM、人文、社科、专业领域(法律、医学、会计等)57 个科目,从初中到专家难度,全面评估模型的知识储备
- 评测协议标准化:统一采用 4 选 1 的多项选择题格式,支持 zero-shot 和 few-shot 评估,结果可复现且跨模型可比
- 暴露知识短板:当时最强的 GPT-3 在 MMLU 上仅达 ~43.9%(随机为 25%),揭示了大模型在专业知识领域的显著不足
- 广泛采用:成为 LLM 评测的核心基准之一,几乎所有后续大模型论文都报告 MMLU 分数,推动了知识密集型预训练和微调研究
相关概念
- MMLU
- NLP评测
- Few-Shot Learning
- 知识评测
- 大语言模型