Goodhart 定律的形式化

分类: 推理与评估 · 难度: 中级 · 关联讲座: L11

Goodhart 定律揭示了一个评估领域的根本性困境:当我们将某个代理指标作为优化目标时,该指标与真正目标之间的相关性会崩塌。本文对这一定律进行形式化处理,并分析其在 LLM 评估中的具体表现。

📐 Goodhart’s Law 的形式化

原版(Charles Goodhart, 1975):“When a measure becomes a target, it ceases to be a good measure.”

形式化(Manheim & Garrabrant 2019,四种变体):

设真正目标为 UU(如”语言理解能力”),可观测代理指标为 DD(如 MMLU 准确率)。正常情况下 UUDD 正相关:corr(U,D)>0\text{corr}(U, D) > 0

当我们优化 DD 时,DDUU 的相关性会崩塌:

argmaxθD(θ)argmaxθU(θ)\arg\max_\theta D(\theta) \ne \arg\max_\theta U(\theta)

因为存在”gaming”策略:提升 DD 但不提升(甚至损害)UU

在 LLM 评估中的表现

  • 数据泄露:模型在 MMLU 上刷到 93%,但换个问法就不会
  • Prompt hacking:特定 prompt 格式下分数高,换格式骤降
  • 榜单优化:公司专门针对排行榜基准做 data mixture 优化