Chain-of-Thought 的概率论视角

分类: 推理与评估 · 难度: 中级 · 关联讲座: L12

本文从概率论和解码算法两个角度，深入理解 Chain-of-Thought 推理的理论基础以及主流解码策略的数学定义。CoT 的核心思想是通过生成中间推理步骤来增强模型的推理能力，而不同的解码策略则决定了模型如何从概率分布中选择输出 token。

标准语言模型：直接从输入 $x$ 预测答案 $y$ ： $P(y \mid x) = \pi_{LM}(y \mid x)$

CoT 语言模型：显式生成中间推理步骤 $z$ （思维链），再预测答案： $P(y \mid x) = \sum_{z} P(y, z \mid x) = \sum_{z} P(y \mid z, x) \cdot P(z \mid x)$

实践中取单条 CoT 路径的近似： $P(y \mid x) \approx P(y \mid \hat{z}, x)$ ，其中 $\hat{z}$ 是模型自回归生成的推理链。

Token Budget 视角：推理链 $z$ 占用 $|z|$ 个 token，每个 token 对应模型一次完整的 attention + FFN 计算。更多 token = 更多”计算步骤” = 更大的有效计算深度。

CoT 本质上是用推理时计算（inference-time compute）弥补模型参数容量的不足——把”一步完成的困难跳跃”分解成”多步可完成的简单推导”。

Greedy Decoding： $y_t = \arg\max_{w} P(w \mid y_{<t}, x)$

Beam Search（束宽 $b$ ，带长度归一化）：

$\text{score}(y_{1:t}) = \frac{1}{t} \sum_{i=1}^{t} \log P(y_i \mid y_{<i}, x)$

每步保留联合分数最高的 $b$ 条路径，最终从 $b$ 条完整序列中选最优。

Temperature Sampling：

$P_\tau(w \mid y_{<t}) = \frac{\exp(\text{logit}(w) / \tau)}{\sum_{w'} \exp(\text{logit}(w') / \tau)}$

Top-p (Nucleus) Sampling：

$\text{nucleus}(p) = \min\{w_{(1)}, \ldots, w_{(k)}\} \quad \text{s.t.} \quad \sum_{i=1}^k P(w_{(i)}) \ge p$

按概率降序排列词汇，取累积概率刚超过 $p$ 的最小集合，再在此集合内按归一化概率采样。自适应调整候选集大小——分布尖锐时 $k$ 小，分布平坦时 $k$ 大。

L09 补充：CoT 的实证发现与 Zero-shot CoT

CoT 是模型规模的涌现能力，在 <100B 参数模型上几乎无效：

模型系列	参数量	Standard（GSM8K）	CoT（GSM8K）
LaMDA	137B	~17%	~27%
GPT	175B	~15%	~46%
PaLM	540B	~18%	~57%
PaLM（小）	8B	< 5%	< 5%（无效）

无需人工写推理示例，在问题后追加触发语句即可激活 CoT：

触发语句效果排名（GSM8K，Zhou et al., 2022）：

触发语句	准确率
”Let’s work this out step by step to be sure we have the right answer.”	82.0%
“Let’s think step by step.”	78.7%
“First,“	77.3%
无触发（zero-shot 基线）	17.7%

Zero-shot CoT 的安全隐患（Shaikh et al., 2023）： Zero-shot CoT 可能放大有害内容生成——“Let’s think step by step”触发推理模式后，模型对有害问题的拒绝率从 ~70% 下降到 ~30%。