Goodhart 定律的形式化
分类: 推理与评估 · 难度: 中级 · 关联讲座: L11
Goodhart 定律揭示了一个评估领域的根本性困境:当我们将某个代理指标作为优化目标时,该指标与真正目标之间的相关性会崩塌。本文对这一定律进行形式化处理,并分析其在 LLM 评估中的具体表现。
📐 Goodhart’s Law 的形式化
原版(Charles Goodhart, 1975):“When a measure becomes a target, it ceases to be a good measure.”
形式化(Manheim & Garrabrant 2019,四种变体):
设真正目标为 (如”语言理解能力”),可观测代理指标为 (如 MMLU 准确率)。正常情况下 和 正相关:。
当我们优化 时, 和 的相关性会崩塌:
因为存在”gaming”策略:提升 但不提升(甚至损害)。
在 LLM 评估中的表现:
- 数据泄露:模型在 MMLU 上刷到 93%,但换个问法就不会
- Prompt hacking:特定 prompt 格式下分数高,换格式骤降
- 榜单优化:公司专门针对排行榜基准做 data mixture 优化