L11: Evaluation

Week 6 · Tue Feb 10 2026 08:00:00 GMT+0800 (中国标准时间)

进度: 0/22 (0%)
下载 PDF
/ 0
100%
正在加载 PDF...

L11: Evaluation

  • Project proposal due
  • Lecturer: Yejin Choi

Slides

中英交替版(推荐)

L11 双语 (PDF)

英文原版

L11 EN (PDF)

中文翻译版

L11 ZH (PDF)

核心知识点

1. LLM 基准测试的近况(SAGA)

Slide 1 Slide 2 Slide 3 Slide 4 Slide 5
  • 基准测试爆炸式增长 & 生命周期不断缩短
  • 人类不再是性能天花板(MMLU、GPQA 等已被超越)
  • 常用基准数量太多且持续演变;前沿模型 vs 开源小模型关注不同基准

💡 为什么基准测试”越来越不够用”?

基准测试的生命周期:设计 → 发布 → 被刷榜 → 饱和 → 被新基准替代

2018 年 GLUE 被认为很难,2019 年 BERT 超过人类基线,SuperGLUE 随即推出。2021 年 MMLU 被认为需要专家级知识,2024 年多个模型超过 90%。这种”军备竞赛”的根本问题是:我们在衡量什么?——基准饱和不代表模型真正”理解”了语言,可能只是学会了特定题型的模式。

2. 多任务基准(Multi-Task Benchmarks)

Slide 6 Slide 7 Slide 8 Slide 9 Slide 10 Slide 11 Slide 12 Slide 13
  • GLUE / SuperGLUE:衡量 intuitive-level NLU 能力
    • SuperGLUE 包含 BoolQ、MultiRC、CB、RTE、COPA、ReCoRD、WiC、WSC
    • 排行榜驱动了大量研究活动
  • MMLU-Paper(Hendrycks et al., 2021)
    • 57 个知识密集型任务(高中到大学水平)
    • 最常用的 LLM 评估基准之一
    • 当前 SOTA 已超 93%(Gemini 3 Pro Preview)
    • MMLU-Pro 更难
  • GPQA:研究生级别的 Google-proof Q&A
    • 发布时看似太难(GPT-4: 38.8%),一年后 O1 达 78.3%
  • Humanity’s Last Exam (HLE):最前沿模型仍然困难(最高 ~26%)

📐 MMLU 的评估协议

MMLU 格式:57 个学科的多选题(4 选 1),few-shot 评估。

标准评估方式(log-likelihood scoring):

y^=argmaxc{A,B,C,D}Pθ(cpromptquestion)\hat{y} = \arg\max_{c \in \{A,B,C,D\}} P_\theta(c \mid \text{prompt} \oplus \text{question})

不是让模型生成文本,而是比较四个选项 token 的对数概率。

MMLU 准确率

Acc=1Ni=1N1[y^i=yi]\text{Acc} = \frac{1}{N} \sum_{i=1}^{N} \mathbb{1}[\hat{y}_i = y_i^*]

MMLU-Pro 的改进

  • 10 个选项(vs MMLU 的 4 个)→ 随机猜测准确率从 25% 降到 10%
  • 更多推理题,更少知识检索题
  • Chain-of-Thought 提升显著(+15%),说明题目确实需要推理

GPQA 的”Google-proof”设计

非专家花 30 分钟搜索后仍只有 34% 准确率,专家在本领域达 65%。这确保了:(1)答案不在互联网上直接可搜到 (2)需要真正的专业知识。

📚 已收录至 拓展阅读知识库

🔢 基准饱和速度的具体数字

基准发布年发布时 SOTA人类水平当前 SOTA (2026)饱和时间
GLUE201869.087.190.8 (T5)~1 年
SuperGLUE201971.589.890.4 (T5)~1.5 年
MMLU202143.9 (GPT-3)~89.893.2 (Gemini 3)~3 年
GPQA202338.8 (GPT-4)65.078.3 (O1)~1 年
HLE2025~8%?~26%未饱和

趋势:基准饱和速度越来越快。HLE 尝试通过征集研究生级别的原创题目来延缓这一趋势。

3. 基准设计的原则(Desiderata)

Slide 14 Slide 15 Slide 16 Slide 17 Slide 18
  • 规模与多样性:覆盖目标现象,样本量充足
  • 难度:对人类易、对模型难
  • 质量:答案正确 + 无虚假偏差(spurious bias / annotation artifacts)

⚠️ 常见误区

  1. 误区:样本量越大基准越好 → 正确:大样本量无法弥补系统性偏差。如果标注者群体单一(如全部来自美国 MTurk 工人),即使 10 万条样本,也只是放大了同一种文化偏见。

  2. 误区:对人类”容易”的任务不值得作为基准 → 正确:好的基准应该”对人类容易、对模型难”——这样模型达到人类水平才有意义。如果人类也做不好(如 HLE),我们就无法区分”模型不够好”和”题目本身不合理”。

4. 虚假偏差(Spurious Bias)

Slide 19 Slide 20 Slide 21 Slide 22 Slide 23
  • 词汇重叠偏差:标注者直接从段落复制词汇,模型学会走捷径(SQuAD 对抗攻击:75% -> 36%)
  • 位置偏差:Wikipedia 段落中重要信息集中在开头
  • SQuAD 1 & 2 的意义:首创 span-based evaluation + unanswerable questions

📐 SQuAD 的 Span-based 评估指标

SQuAD 任务:给定段落 PP 和问题 QQ,预测答案 span [s,e][s, e](起始和结束位置)。

Exact Match (EM)

EM=1Ni=1N1[predi=goldi]\text{EM} = \frac{1}{N} \sum_{i=1}^{N} \mathbb{1}[\text{pred}_i = \text{gold}_i]

预测 span 与标注完全一致才算正确(归一化后比较:去标点、小写化)。

Token-level F1

P=pred tokensgold tokenspred tokens,R=pred tokensgold tokensgold tokensP = \frac{|\text{pred tokens} \cap \text{gold tokens}|}{|\text{pred tokens}|}, \quad R = \frac{|\text{pred tokens} \cap \text{gold tokens}|}{|\text{gold tokens}|}

F1=2PRP+RF_1 = \frac{2PR}{P + R}

允许部分匹配——比 EM 更宽容。

对抗攻击(Jia & Liang 2017)的揭示

在段落末尾插入一句与问题词汇高度重叠但语义无关的干扰句:

  • 原问题:“What city did the Super Bowl take place in?” → 模型正确回答:“Santa Clara”
  • 加干扰句:“Jeff Dean played in the Super Bowl in Houston.” → 模型错误回答:“Houston”

模型依赖词汇重叠而非真正理解,EM 从 75% 暴跌到 36%。

📚 已收录至 拓展阅读知识库

🔢 Annotation Artifacts 的量化示例

NLI 任务中的标注偏差(Gururangan et al. 2018):

只看假设句(不看前提句!),分类器就能达到 67% 准确率(随机猜测 33%):

假设句特征倾向标签原因
含”not”/“never”Contradiction标注者通过否定来制造矛盾
含”some”/“sometimes”Neutral模糊限定词 → 不确定 → 中性
句子更长Entailment蕴含需要更多解释

这意味着模型可能在”做 NLI”时根本没有进行推理,而是在做关键词分类

5. 动态基准与对抗基准

Slide 24 Slide 25 Slide 26 Slide 27 Slide 28 Slide 29
  • 动态基准:持续更新以防数据泄露和过拟合
  • 对抗基准:设计对抗样本测试模型鲁棒性

💡 为什么需要动态基准?

数据泄露(Data Contamination):LLM 的预训练语料可能包含基准测试的题目和答案。如果模型在训练时”见过”测试题,高分不代表能力强,只代表记忆好。

解决方案

  • 时间隔离:持续发布新题目,确保模型训练截止日期之前不存在
  • 动态标注:让人类根据当前 SOTA 模型的弱点定向创建对抗样本(Dynabench)
  • 私有测试集:不公开测试集(如 HELM),只接受 API 提交

本质矛盾:开放科学要求数据公开可复现,但公开的数据会被训练。这是 LLM 评估最根本的张力。

⚠️ 常见误区

  1. 误区:只要测试集不公开就能防止泄露 → 正确:许多”私有”基准的题目模式、难度分布甚至部分样本已被公开讨论、博客转载、论坛分享——模型可以间接学到分布信息。

  2. 误区:对抗基准更”公平” → 正确:对抗基准有 adversarial overfitting 风险——模型专门针对已知攻击模式训练防御,但对新攻击类型仍然脆弱。安全性不是有限攻击集能衡量的。

6. 评估指标的艺术

Slide 30 Slide 31 Slide 32 Slide 33 Slide 34 Slide 35 Slide 36 Slide 37 Slide 38 Slide 39 Slide 40 Slide 41 Slide 42 Slide 43 Slide 44 Slide 45 Slide 46 Slide 47 Slide 48 Slide 49 Slide 50 Slide 51 Slide 52 Slide 53 Slide 54 Slide 55 Slide 56 Slide 57 Slide 58 Slide 59 Slide 60 Slide 61 Slide 62 Slide 63 Slide 64
  • Model-free vs Model-based 指标
  • Reference-based vs Reference-free 指标
  • 信息论指标
  • LLM as Judge / Jury:用 LLM 评估 LLM 输出
  • 人类评估的局限:成本高、一致性差、可能不如模型可靠
  • AlpacaEval:自动化偏好评估
  • HELM:全面、标准化的 LLM 评估框架

📐 核心评估指标公式

BLEU(机器翻译)

BLEU=BPexp ⁣(n=1414logpn)\text{BLEU} = \text{BP} \cdot \exp\!\left(\sum_{n=1}^{4} \frac{1}{4} \log p_n\right)

其中 pnp_n 是修剪后的 n-gram 精确率,BP 是简短惩罚:

BP={1if c>re1r/cif cr\text{BP} = \begin{cases} 1 & \text{if } c > r \\ e^{1-r/c} & \text{if } c \le r \end{cases}

cc = 候选长度,rr = 参考长度。BLEU 只看精确率(不看召回率),BP 补偿过短的翻译。

ROUGE-L(摘要/生成)

RL=LCS(X,Y)X,PL=LCS(X,Y)Y,FL=(1+β2)RLPLRL+β2PLR_L = \frac{\text{LCS}(X, Y)}{|X|}, \quad P_L = \frac{\text{LCS}(X, Y)}{|Y|}, \quad F_L = \frac{(1+\beta^2) R_L P_L}{R_L + \beta^2 P_L}

LCS = 最长公共子序列。ROUGE-L 同时考虑精确率和召回率,且不要求匹配的词连续。

BERTScore(语义级评估)

RBERT=1xxixmaxyjyxiTyjR_{\text{BERT}} = \frac{1}{|x|}\sum_{x_i \in x} \max_{y_j \in y} \mathbf{x}_i^T \mathbf{y}_j

PBERT=1yyjymaxxixxiTyjP_{\text{BERT}} = \frac{1}{|y|}\sum_{y_j \in y} \max_{x_i \in x} \mathbf{x}_i^T \mathbf{y}_j

其中 xi,yj\mathbf{x}_i, \mathbf{y}_j 是 BERT 上下文化 embedding。每个 token 贪心匹配语义最近的对应 token,不要求位置对齐。

LLM-as-Judge 的 Bradley-Terry 模型(Chatbot Arena):

P(AB)=eβAeβA+eβBP(A \succ B) = \frac{e^{\beta_A}}{e^{\beta_A} + e^{\beta_B}}

从人类偏好投票中用 MLE 估计每个模型的强度参数 β\beta,产生 Elo-like 排名。

📚 已收录至 拓展阅读知识库

🔢 指标之间的差异:同一输出不同评分

参考翻译:“The cat sat on the mat.”

候选翻译BLEU-4ROUGE-LBERTScore
”The cat sat on the mat.”1.001.001.00
”A cat was sitting on a mat.”0.280.570.94
”The dog sat on the mat.”0.570.860.89
”Mat sat cat the on the.”0.570.570.72

关键对比:

  • 候选 2 语义正确但措辞不同 → BLEU 严厉惩罚(n-gram 不匹配),BERTScore 高分(语义保持)
  • 候选 3 语义错误(dog ≠ cat)→ BLEU 反而给出高分(5/7 词匹配),BERTScore 能检测到 dog/cat 的语义差异
  • 候选 4 语序混乱 → ROUGE-L 仍给出 0.57(子序列匹配不看顺序),BERTScore 合理下降

⚠️ 常见误区

  1. 误区:BLEU 高 = 翻译质量好 → 正确:BLEU 只衡量 n-gram 重叠,无法捕捉同义替换、句式重组等合法变体。在 LLM 时代,BERTScore 或 LLM-as-Judge 更可靠。

  2. 误区:LLM-as-Judge 比人类评估更客观 → 正确:LLM Judge 有系统性偏差——偏好更长的回答(verbosity bias)、偏好排在前面的选项(position bias)、偏好自己生成的内容(self-preference bias)。需要 position swap 和多 judge 投票来缓解。

  3. 误区:一个指标就够了 → 正确:HELM 的核心贡献就是证明需要多维度评估——准确率、校准、鲁棒性、公平性、效率需要同时考量,单一排名容易误导。

7. 注意事项与开放问题

Slide 65 Slide 66 Slide 67 Slide 68 Slide 69 Slide 70 Slide 71 Slide 72 Slide 73 Slide 74 Slide 75 Slide 76 Slide 77
  • Goodhart’s Law:“当一个度量变成目标时,它就不再是好的度量”
  • 数据去污染(Data de-contamination)
  • Prompt 敏感性 / 不一致性
  • LM Arena 等人类偏好评估平台

🔗 与其他讲座的关联

  • L08 Post-training:RLHF 的奖励模型本身就是一个”代理指标”——Goodhart’s Law 解释了为什么 reward hacking 难以避免
  • L16 社会影响:幻觉问题的一个根源是基准测试惩罚”说不知道”、奖励自信回答——Goodhart’s Law 在对齐中的体现
  • L06 Final Project:选择评估指标时务必注意——如果你只优化 BLEU,模型可能学会输出模板化的高 BLEU 但质量低的翻译

推荐阅读

关联概念

个人笔记