CS224N / 学习笔记

MMLU

分类: 数据集与评估

type:: concept aliases:: Massive Multitask Language Understanding

MMLU
定义
大规模多任务语言理解基准，包含 57 个学科的多选题，评估 LLM 的广泛知识和推理能力
核心要点
覆盖 STEM、人文、社科等领域，从初级到专业难度
已成为 LLM 评估的标准基准之一
在量化研究中用于衡量压缩后模型的推理能力保持程度
通常以 accuracy (%) 报告
代表工作
LLVQ: 在 2-bit 量化下 MMLU 37.3%（Llama-2 7B），超越 Quip# 的 30.6%
Hendrycks et al. (2021): 提出 MMLU 基准
相关概念
Wikitext-2