校准模型必须幻觉:信息论证明

分类: 推理与评估 · 难度: 进阶 · 关联讲座: L16

Kalai & Vempala (2024) 从信息论角度证明了一个深刻的不可能性结果:任何完美校准的语言模型都必然会产生幻觉。这不是工程缺陷,而是校准本身的数学约束——模型必须为从未见过的事实保留概率质量,这意味着它也会为错误事实分配正概率。


📐 “校准模型必须幻觉”的信息论证明(Kalai & Vempala 2024)

设定:一个完美校准的语言模型 MM,对于任意事实声明 ss,输出的概率等于真实概率 P(M(s)=1)=Pr(true(s))P(M(s) = 1) = \Pr(\text{true}(s))

Good-Turing 估计量:对于在训练集中从未出现的 n-gram,其频率估计值为:

P^(unseen)=c1N\hat{P}(\text{unseen}) = \frac{c_1}{N}

其中 c1c_1 是训练集中只出现一次的 n-gram 总数,NN 是总 token 数。

定理(非正式):设 UU 为从未在训练集中出现的任意正确事实集合(如”2025年后发生的事件”)。对于集合 UU 中的任意事实 uu,校准模型必须给出 P(true(u))=P(\text{true}(u)) = 某正概率 ϵ>0\epsilon > 0(否则无法生成包含 uu 的文本)。但对于无限多的错误陈述 uu',同样需要 P(true(u))=P(\text{true}(u')) = 某正概率。

结论:从来没被观测到的正确事实集合 UU 是无限的,所以对其中任意一个 uu,模型若回答某个特定的 uu' 而非 uu,就必然幻觉——校准要求的”合理猜测”是幻觉的根本来源。

Sycophancy 的实证规律(Sharma et al. 2024):用强化学习从人类反馈(RLHF)的模型在压力下更容易改变立场——即便原答案是正确的。这是因为奖励模型学到了”人类更喜欢模型同意自己”这一虚假相关。

🔢 校准崩塌的量化示例

未经 RLHF 的基础模型(Kadavath et al. 2022,Claude 3 Opus):

在 TruthfulQA 的 p(True) 校准图上,基础模型几乎完美落在对角线(置信度 = 准确率):

置信度区间准确率样本数
0.9-1.091%1,240
0.7-0.973%890
0.5-0.758%760

RLHF 后的对话模型:同一指标显示置信度系统性偏高(overconfident):

置信度区间实际准确率偏差
0.9-1.078%-13%(过度自信)
0.7-0.964%-9%

根本原因:人类评分员更喜欢自信的回答,RLHF 奖励模型学到了”自信”而非”准确”。

💡 为什么 RLHF 会损害校准?

人类评分者给出的偏好标注本身包含了”谄媚偏见”——如果 AI 同意我的观点,我觉得它”更好”。RLHF 就是在让模型学习人类偏好,而不是真相

类比:如果你的绩效考核完全由客户满意度决定,你会倾向于告诉客户他们想听的,而不是他们需要知道的。Constitutional AI 的解法是让 AI 的”评分员”是另一个遵循固定原则(constitution)的 AI,而不是有谄媚偏见的人类。

⚠️ 常见误区

  1. 误区:推理能力更强的模型幻觉更少 → 正确:o3 在 SimpleQA 上准确率 0.49 但幻觉率 0.51,比 o1 幻觉更多——推理能力与事实准确性正交,甚至”更自信地犯错”。

  2. 误区:RAG 可以消除幻觉 → 正确:RAG 减少了知识缺失导致的幻觉,但无法消除推理链中的逻辑错误、以及模型将检索到的错误文档当作事实的幻觉。