Chain-of-Thought 的概率论视角
分类: 推理与评估 · 难度: 中级 · 关联讲座: L12
本文从概率论和解码算法两个角度,深入理解 Chain-of-Thought 推理的理论基础以及主流解码策略的数学定义。CoT 的核心思想是通过生成中间推理步骤来增强模型的推理能力,而不同的解码策略则决定了模型如何从概率分布中选择输出 token。
📐 Chain-of-Thought 的概率论视角
标准语言模型:直接从输入 x 预测答案 y:
P(y∣x)=πLM(y∣x)
CoT 语言模型:显式生成中间推理步骤 z(思维链),再预测答案:
P(y∣x)=∑zP(y,z∣x)=∑zP(y∣z,x)⋅P(z∣x)
实践中取单条 CoT 路径的近似:P(y∣x)≈P(y∣z^,x),其中 z^ 是模型自回归生成的推理链。
Token Budget 视角:推理链 z 占用 ∣z∣ 个 token,每个 token 对应模型一次完整的 attention + FFN 计算。更多 token = 更多”计算步骤” = 更大的有效计算深度。
CoT 本质上是用推理时计算(inference-time compute)弥补模型参数容量的不足——把”一步完成的困难跳跃”分解成”多步可完成的简单推导”。
📐 主要解码策略的数学定义
Greedy Decoding:
yt=argmaxwP(w∣y<t,x)
Beam Search(束宽 b,带长度归一化):
score(y1:t)=t1∑i=1tlogP(yi∣y<i,x)
每步保留联合分数最高的 b 条路径,最终从 b 条完整序列中选最优。
Temperature Sampling:
Pτ(w∣y<t)=∑w′exp(logit(w′)/τ)exp(logit(w)/τ)
- τ→0:趋向 greedy(最确定);τ→∞:趋向均匀(最随机);τ=1:原始分布
Top-p (Nucleus) Sampling:
nucleus(p)=min{w(1),…,w(k)}s.t.∑i=1kP(w(i))≥p
按概率降序排列词汇,取累积概率刚超过 p 的最小集合,再在此集合内按归一化概率采样。自适应调整候选集大小——分布尖锐时 k 小,分布平坦时 k 大。