MMLU

分类: 数据集与评估

type:: concept aliases:: Massive Multitask Language Understanding

  • MMLU

  • 定义

  • 大规模多任务语言理解基准,包含 57 个学科的多选题,评估 LLM 的广泛知识和推理能力

  • 核心要点

  • 覆盖 STEM、人文、社科等领域,从初级到专业难度

  • 已成为 LLM 评估的标准基准之一

  • 在量化研究中用于衡量压缩后模型的推理能力保持程度

  • 通常以 accuracy (%) 报告

  • 代表工作

  • LLVQ: 在 2-bit 量化下 MMLU 37.3%(Llama-2 7B),超越 Quip# 的 30.6%

  • Hendrycks et al. (2021): 提出 MMLU 基准

  • 相关概念

  • Wikitext-2