Measuring Massive Multitask Language Understanding

作者: Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, Jacob Steinhardt 年份: 2021 会议: ICLR 分类: 数据集与评估

论文笔记:MMLU-Paper

一句话总结

  • 提出 MMLU(Massive Multitask Language Understanding)基准,覆盖 57 个学科的 15,908 道选择题,用于评测语言模型的广泛知识和推理能力。

核心贡献

  • 大规模多学科评测:覆盖 STEM、人文、社科、专业领域(法律、医学、会计等)57 个科目,从初中到专家难度,全面评估模型的知识储备
  • 评测协议标准化:统一采用 4 选 1 的多项选择题格式,支持 zero-shot 和 few-shot 评估,结果可复现且跨模型可比
  • 暴露知识短板:当时最强的 GPT-3 在 MMLU 上仅达 ~43.9%(随机为 25%),揭示了大模型在专业知识领域的显著不足
  • 广泛采用:成为 LLM 评测的核心基准之一,几乎所有后续大模型论文都报告 MMLU 分数,推动了知识密集型预训练和微调研究

相关概念

  • MMLU
  • NLP评测
  • Few-Shot Learning
  • 知识评测
  • 大语言模型