Goodhart 定律的形式化

分类: 推理与评估 · 难度: 中级 · 关联讲座: L11

Goodhart 定律揭示了一个评估领域的根本性困境：当我们将某个代理指标作为优化目标时，该指标与真正目标之间的相关性会崩塌。本文对这一定律进行形式化处理，并分析其在 LLM 评估中的具体表现。

原版（Charles Goodhart, 1975）：“When a measure becomes a target, it ceases to be a good measure.”

形式化（Manheim & Garrabrant 2019，四种变体）：

设真正目标为 $U$ （如”语言理解能力”），可观测代理指标为 $D$ （如 MMLU 准确率）。正常情况下 $U$ 和 $D$ 正相关： $\text{corr}(U, D) > 0$ 。

当我们优化 $D$ 时， $D$ 和 $U$ 的相关性会崩塌：

$\arg\max_\theta D(\theta) \ne \arg\max_\theta U(\theta)$

因为存在”gaming”策略：提升 $D$ 但不提升（甚至损害） $U$ 。

在 LLM 评估中的表现：