L11: Evaluation

Week 6 · Tue Feb 10 2026 08:00:00 GMT+0800 (中国标准时间)

进度: 0/22 (0%)

下载 PDF

/ 0

100%

正在加载 PDF...

L11: Evaluation

Project proposal due
Lecturer: Yejin Choi

Slides

核心知识点

1. LLM 基准测试的近况（SAGA）

基准测试爆炸式增长 & 生命周期不断缩短
人类不再是性能天花板（MMLU、GPQA 等已被超越）
常用基准数量太多且持续演变；前沿模型 vs 开源小模型关注不同基准

💡 为什么基准测试”越来越不够用”？

基准测试的生命周期：设计 → 发布 → 被刷榜 → 饱和 → 被新基准替代。

2018 年 GLUE 被认为很难，2019 年 BERT 超过人类基线，SuperGLUE 随即推出。2021 年 MMLU 被认为需要专家级知识，2024 年多个模型超过 90%。这种”军备竞赛”的根本问题是：我们在衡量什么？——基准饱和不代表模型真正”理解”了语言，可能只是学会了特定题型的模式。

2. 多任务基准（Multi-Task Benchmarks）

GLUE / SuperGLUE：衡量 intuitive-level NLU 能力
- SuperGLUE 包含 BoolQ、MultiRC、CB、RTE、COPA、ReCoRD、WiC、WSC
- 排行榜驱动了大量研究活动
MMLU-Paper（Hendrycks et al., 2021）
- 57 个知识密集型任务（高中到大学水平）
- 最常用的 LLM 评估基准之一
- 当前 SOTA 已超 93%（Gemini 3 Pro Preview）
- MMLU-Pro 更难
GPQA：研究生级别的 Google-proof Q&A
- 发布时看似太难（GPT-4: 38.8%），一年后 O1 达 78.3%
Humanity’s Last Exam (HLE)：最前沿模型仍然困难（最高 ~26%）

📐 MMLU 的评估协议

MMLU 格式：57 个学科的多选题（4 选 1），few-shot 评估。

标准评估方式（log-likelihood scoring）：

$\hat{y} = \arg\max_{c \in \{A,B,C,D\}} P_\theta(c \mid \text{prompt} \oplus \text{question})$

不是让模型生成文本，而是比较四个选项 token 的对数概率。

MMLU 准确率：

$\text{Acc} = \frac{1}{N} \sum_{i=1}^{N} \mathbb{1}[\hat{y}_i = y_i^*]$

MMLU-Pro 的改进：

10 个选项（vs MMLU 的 4 个）→ 随机猜测准确率从 25% 降到 10%
更多推理题，更少知识检索题
Chain-of-Thought 提升显著（+15%），说明题目确实需要推理

GPQA 的”Google-proof”设计：

非专家花 30 分钟搜索后仍只有 34% 准确率，专家在本领域达 65%。这确保了：（1）答案不在互联网上直接可搜到（2）需要真正的专业知识。

📚 已收录至拓展阅读知识库

🔢 基准饱和速度的具体数字

基准	发布年	发布时 SOTA	人类水平	当前 SOTA (2026)	饱和时间
GLUE	2018	69.0	87.1	90.8 (T5)	~1 年
SuperGLUE	2019	71.5	89.8	90.4 (T5)	~1.5 年
MMLU	2021	43.9 (GPT-3)	~89.8	93.2 (Gemini 3)	~3 年
GPQA	2023	38.8 (GPT-4)	65.0	78.3 (O1)	~1 年
HLE	2025	~8%	?	~26%	未饱和

趋势：基准饱和速度越来越快。HLE 尝试通过征集研究生级别的原创题目来延缓这一趋势。

3. 基准设计的原则（Desiderata）

规模与多样性：覆盖目标现象，样本量充足
难度：对人类易、对模型难
质量：答案正确 + 无虚假偏差（spurious bias / annotation artifacts）

⚠️ 常见误区

误区：样本量越大基准越好 → 正确：大样本量无法弥补系统性偏差。如果标注者群体单一（如全部来自美国 MTurk 工人），即使 10 万条样本，也只是放大了同一种文化偏见。
误区：对人类”容易”的任务不值得作为基准 → 正确：好的基准应该”对人类容易、对模型难”——这样模型达到人类水平才有意义。如果人类也做不好（如 HLE），我们就无法区分”模型不够好”和”题目本身不合理”。

4. 虚假偏差（Spurious Bias）

词汇重叠偏差：标注者直接从段落复制词汇，模型学会走捷径（SQuAD 对抗攻击：75% -> 36%）
位置偏差：Wikipedia 段落中重要信息集中在开头
SQuAD 1 & 2 的意义：首创 span-based evaluation + unanswerable questions

📐 SQuAD 的 Span-based 评估指标

SQuAD 任务：给定段落 $P$ 和问题 $Q$ ，预测答案 span $[s, e]$ （起始和结束位置）。

Exact Match (EM)：

$\text{EM} = \frac{1}{N} \sum_{i=1}^{N} \mathbb{1}[\text{pred}_i = \text{gold}_i]$

预测 span 与标注完全一致才算正确（归一化后比较：去标点、小写化）。

Token-level F1：

$P = \frac{|\text{pred tokens} \cap \text{gold tokens}|}{|\text{pred tokens}|}, \quad R = \frac{|\text{pred tokens} \cap \text{gold tokens}|}{|\text{gold tokens}|}$

$F_1 = \frac{2PR}{P + R}$

允许部分匹配——比 EM 更宽容。

对抗攻击（Jia & Liang 2017）的揭示：

在段落末尾插入一句与问题词汇高度重叠但语义无关的干扰句：

原问题：“What city did the Super Bowl take place in?” → 模型正确回答：“Santa Clara”
加干扰句：“Jeff Dean played in the Super Bowl in Houston.” → 模型错误回答：“Houston”

模型依赖词汇重叠而非真正理解，EM 从 75% 暴跌到 36%。

📚 已收录至拓展阅读知识库

🔢 Annotation Artifacts 的量化示例

NLI 任务中的标注偏差（Gururangan et al. 2018）：

只看假设句（不看前提句！），分类器就能达到 67% 准确率（随机猜测 33%）：

假设句特征	倾向标签	原因
含”not”/“never”	Contradiction	标注者通过否定来制造矛盾
含”some”/“sometimes”	Neutral	模糊限定词 → 不确定 → 中性
句子更长	Entailment	蕴含需要更多解释

这意味着模型可能在”做 NLI”时根本没有进行推理，而是在做关键词分类。

5. 动态基准与对抗基准

动态基准：持续更新以防数据泄露和过拟合
对抗基准：设计对抗样本测试模型鲁棒性

💡 为什么需要动态基准？

数据泄露（Data Contamination）：LLM 的预训练语料可能包含基准测试的题目和答案。如果模型在训练时”见过”测试题，高分不代表能力强，只代表记忆好。

解决方案：

时间隔离：持续发布新题目，确保模型训练截止日期之前不存在
动态标注：让人类根据当前 SOTA 模型的弱点定向创建对抗样本（Dynabench）
私有测试集：不公开测试集（如 HELM），只接受 API 提交

本质矛盾：开放科学要求数据公开可复现，但公开的数据会被训练。这是 LLM 评估最根本的张力。

⚠️ 常见误区

误区：只要测试集不公开就能防止泄露 → 正确：许多”私有”基准的题目模式、难度分布甚至部分样本已被公开讨论、博客转载、论坛分享——模型可以间接学到分布信息。
误区：对抗基准更”公平” → 正确：对抗基准有 adversarial overfitting 风险——模型专门针对已知攻击模式训练防御，但对新攻击类型仍然脆弱。安全性不是有限攻击集能衡量的。

6. 评估指标的艺术

Model-free vs Model-based 指标
Reference-based vs Reference-free 指标
信息论指标
LLM as Judge / Jury：用 LLM 评估 LLM 输出
人类评估的局限：成本高、一致性差、可能不如模型可靠
AlpacaEval：自动化偏好评估
HELM：全面、标准化的 LLM 评估框架

📐 核心评估指标公式

BLEU（机器翻译）：

$\text{BLEU} = \text{BP} \cdot \exp\!\left(\sum_{n=1}^{4} \frac{1}{4} \log p_n\right)$

其中 $p_n$ 是修剪后的 n-gram 精确率，BP 是简短惩罚：

$\text{BP} = \begin{cases} 1 & \text{if } c > r \\ e^{1-r/c} & \text{if } c \le r \end{cases}$

$c$ = 候选长度， $r$ = 参考长度。BLEU 只看精确率（不看召回率），BP 补偿过短的翻译。

ROUGE-L（摘要/生成）：

$R_L = \frac{\text{LCS}(X, Y)}{|X|}, \quad P_L = \frac{\text{LCS}(X, Y)}{|Y|}, \quad F_L = \frac{(1+\beta^2) R_L P_L}{R_L + \beta^2 P_L}$

LCS = 最长公共子序列。ROUGE-L 同时考虑精确率和召回率，且不要求匹配的词连续。

BERTScore（语义级评估）：

$R_{\text{BERT}} = \frac{1}{|x|}\sum_{x_i \in x} \max_{y_j \in y} \mathbf{x}_i^T \mathbf{y}_j$

$P_{\text{BERT}} = \frac{1}{|y|}\sum_{y_j \in y} \max_{x_i \in x} \mathbf{x}_i^T \mathbf{y}_j$

其中 $\mathbf{x}_i, \mathbf{y}_j$ 是 BERT 上下文化 embedding。每个 token 贪心匹配语义最近的对应 token，不要求位置对齐。

LLM-as-Judge 的 Bradley-Terry 模型（Chatbot Arena）：

$P(A \succ B) = \frac{e^{\beta_A}}{e^{\beta_A} + e^{\beta_B}}$

从人类偏好投票中用 MLE 估计每个模型的强度参数 $\beta$ ，产生 Elo-like 排名。

📚 已收录至拓展阅读知识库

🔢 指标之间的差异：同一输出不同评分

参考翻译：“The cat sat on the mat.”

候选翻译	BLEU-4	ROUGE-L	BERTScore
”The cat sat on the mat.”	1.00	1.00	1.00
”A cat was sitting on a mat.”	0.28	0.57	0.94
”The dog sat on the mat.”	0.57	0.86	0.89
”Mat sat cat the on the.”	0.57	0.57	0.72

关键对比：

候选 2 语义正确但措辞不同 → BLEU 严厉惩罚（n-gram 不匹配），BERTScore 高分（语义保持）
候选 3 语义错误（dog ≠ cat）→ BLEU 反而给出高分（5/7 词匹配），BERTScore 能检测到 dog/cat 的语义差异
候选 4 语序混乱 → ROUGE-L 仍给出 0.57（子序列匹配不看顺序），BERTScore 合理下降

⚠️ 常见误区

误区：BLEU 高 = 翻译质量好 → 正确：BLEU 只衡量 n-gram 重叠，无法捕捉同义替换、句式重组等合法变体。在 LLM 时代，BERTScore 或 LLM-as-Judge 更可靠。
误区：LLM-as-Judge 比人类评估更客观 → 正确：LLM Judge 有系统性偏差——偏好更长的回答（verbosity bias）、偏好排在前面的选项（position bias）、偏好自己生成的内容（self-preference bias）。需要 position swap 和多 judge 投票来缓解。
误区：一个指标就够了 → 正确：HELM 的核心贡献就是证明需要多维度评估——准确率、校准、鲁棒性、公平性、效率需要同时考量，单一排名容易误导。

7. 注意事项与开放问题

Goodhart’s Law：“当一个度量变成目标时，它就不再是好的度量”
数据去污染（Data de-contamination）
Prompt 敏感性 / 不一致性
LM Arena 等人类偏好评估平台

📖 拓展阅读：Goodhart 定律的形式化 →

🔗 与其他讲座的关联

L08 Post-training：RLHF 的奖励模型本身就是一个”代理指标”——Goodhart’s Law 解释了为什么 reward hacking 难以避免
L16 社会影响：幻觉问题的一个根源是基准测试惩罚”说不知道”、奖励自信回答——Goodhart’s Law 在对齐中的体现
L06 Final Project：选择评估指标时务必注意——如果你只优化 BLEU，模型可能学会输出模板化的高 BLEU 但质量低的翻译

L11: Evaluation

L11: Evaluation

Slides

中英交替版（推荐）

英文原版

中文翻译版

核心知识点

1. LLM 基准测试的近况（SAGA）

💡 为什么基准测试”越来越不够用”？

2. 多任务基准（Multi-Task Benchmarks）

📐 MMLU 的评估协议

🔢 基准饱和速度的具体数字

3. 基准设计的原则（Desiderata）

⚠️ 常见误区

4. 虚假偏差（Spurious Bias）

📐 SQuAD 的 Span-based 评估指标

🔢 Annotation Artifacts 的量化示例

5. 动态基准与对抗基准

💡 为什么需要动态基准？

⚠️ 常见误区

6. 评估指标的艺术

📐 核心评估指标公式

🔢 指标之间的差异：同一输出不同评分

⚠️ 常见误区

7. 注意事项与开放问题

🔗 与其他讲座的关联

推荐阅读

关联概念

个人笔记