Chain-of-Thought 的概率论视角

分类: 推理与评估 · 难度: 中级 · 关联讲座: L12

本文从概率论和解码算法两个角度,深入理解 Chain-of-Thought 推理的理论基础以及主流解码策略的数学定义。CoT 的核心思想是通过生成中间推理步骤来增强模型的推理能力,而不同的解码策略则决定了模型如何从概率分布中选择输出 token。

📐 Chain-of-Thought 的概率论视角

标准语言模型:直接从输入 xx 预测答案 yyP(yx)=πLM(yx)P(y \mid x) = \pi_{LM}(y \mid x)

CoT 语言模型:显式生成中间推理步骤 zz(思维链),再预测答案: P(yx)=zP(y,zx)=zP(yz,x)P(zx)P(y \mid x) = \sum_{z} P(y, z \mid x) = \sum_{z} P(y \mid z, x) \cdot P(z \mid x)

实践中取单条 CoT 路径的近似:P(yx)P(yz^,x)P(y \mid x) \approx P(y \mid \hat{z}, x),其中 z^\hat{z} 是模型自回归生成的推理链。

Token Budget 视角:推理链 zz 占用 z|z| 个 token,每个 token 对应模型一次完整的 attention + FFN 计算。更多 token = 更多”计算步骤” = 更大的有效计算深度。

CoT 本质上是用推理时计算(inference-time compute)弥补模型参数容量的不足——把”一步完成的困难跳跃”分解成”多步可完成的简单推导”。

📐 主要解码策略的数学定义

Greedy Decodingyt=argmaxwP(wy<t,x)y_t = \arg\max_{w} P(w \mid y_{<t}, x)

Beam Search(束宽 bb,带长度归一化):

score(y1:t)=1ti=1tlogP(yiy<i,x)\text{score}(y_{1:t}) = \frac{1}{t} \sum_{i=1}^{t} \log P(y_i \mid y_{<i}, x)

每步保留联合分数最高的 bb 条路径,最终从 bb 条完整序列中选最优。

Temperature Sampling

Pτ(wy<t)=exp(logit(w)/τ)wexp(logit(w)/τ)P_\tau(w \mid y_{<t}) = \frac{\exp(\text{logit}(w) / \tau)}{\sum_{w'} \exp(\text{logit}(w') / \tau)}

  • τ0\tau \to 0:趋向 greedy(最确定);τ\tau \to \infty:趋向均匀(最随机);τ=1\tau = 1:原始分布

Top-p (Nucleus) Sampling

nucleus(p)=min{w(1),,w(k)}s.t.i=1kP(w(i))p\text{nucleus}(p) = \min\{w_{(1)}, \ldots, w_{(k)}\} \quad \text{s.t.} \quad \sum_{i=1}^k P(w_{(i)}) \ge p

按概率降序排列词汇,取累积概率刚超过 pp 的最小集合,再在此集合内按归一化概率采样。自适应调整候选集大小——分布尖锐时 kk 小,分布平坦时 kk 大。