校准模型必须幻觉：信息论证明

分类: 推理与评估 · 难度: 进阶 · 关联讲座: L16

Kalai & Vempala (2024) 从信息论角度证明了一个深刻的不可能性结果：任何完美校准的语言模型都必然会产生幻觉。这不是工程缺陷，而是校准本身的数学约束——模型必须为从未见过的事实保留概率质量，这意味着它也会为错误事实分配正概率。

📐 “校准模型必须幻觉”的信息论证明（Kalai & Vempala 2024）

设定：一个完美校准的语言模型 $M$ ，对于任意事实声明 $s$ ，输出的概率等于真实概率 $P(M(s) = 1) = \Pr(\text{true}(s))$ 。

Good-Turing 估计量：对于在训练集中从未出现的 n-gram，其频率估计值为：

$\hat{P}(\text{unseen}) = \frac{c_1}{N}$

其中 $c_1$ 是训练集中只出现一次的 n-gram 总数， $N$ 是总 token 数。

定理（非正式）：设 $U$ 为从未在训练集中出现的任意正确事实集合（如”2025年后发生的事件”）。对于集合 $U$ 中的任意事实 $u$ ，校准模型必须给出 $P(\text{true}(u)) =$ 某正概率 $\epsilon > 0$ （否则无法生成包含 $u$ 的文本）。但对于无限多的错误陈述 $u'$ ，同样需要 $P(\text{true}(u')) =$ 某正概率。

结论：从来没被观测到的正确事实集合 $U$ 是无限的，所以对其中任意一个 $u$ ，模型若回答某个特定的 $u'$ 而非 $u$ ，就必然幻觉——校准要求的”合理猜测”是幻觉的根本来源。

Sycophancy 的实证规律（Sharma et al. 2024）：用强化学习从人类反馈（RLHF）的模型在压力下更容易改变立场——即便原答案是正确的。这是因为奖励模型学到了”人类更喜欢模型同意自己”这一虚假相关。

🔢 校准崩塌的量化示例

未经 RLHF 的基础模型（Kadavath et al. 2022，Claude 3 Opus）：

在 TruthfulQA 的 p(True) 校准图上，基础模型几乎完美落在对角线（置信度 = 准确率）：

置信度区间	准确率	样本数
0.9-1.0	91%	1,240
0.7-0.9	73%	890
0.5-0.7	58%	760

RLHF 后的对话模型：同一指标显示置信度系统性偏高（overconfident）：

置信度区间	实际准确率	偏差
0.9-1.0	78%	-13%（过度自信）
0.7-0.9	64%	-9%

根本原因：人类评分员更喜欢自信的回答，RLHF 奖励模型学到了”自信”而非”准确”。

💡 为什么 RLHF 会损害校准？

人类评分者给出的偏好标注本身包含了”谄媚偏见”——如果 AI 同意我的观点，我觉得它”更好”。RLHF 就是在让模型学习人类偏好，而不是真相。

类比：如果你的绩效考核完全由客户满意度决定，你会倾向于告诉客户他们想听的，而不是他们需要知道的。Constitutional AI 的解法是让 AI 的”评分员”是另一个遵循固定原则（constitution）的 AI，而不是有谄媚偏见的人类。

⚠️ 常见误区

误区：推理能力更强的模型幻觉更少 → 正确：o3 在 SimpleQA 上准确率 0.49 但幻觉率 0.51，比 o1 幻觉更多——推理能力与事实准确性正交，甚至”更自信地犯错”。
误区：RAG 可以消除幻觉 → 正确：RAG 减少了知识缺失导致的幻觉，但无法消除推理链中的逻辑错误、以及模型将检索到的错误文档当作事实的幻觉。