Chain-of-Thought 的概率论视角
本文从概率论和解码算法两个角度,深入理解 Chain-of-Thought 推理的理论基础以及主流解码策略的数学定义。CoT 的核心思想是通过生成中间推理步骤来增强模型的推理能力,而不同的解码策略则决定了模型如何从概率分布中选择输出 token。
📐 Chain-of-Thought 的概率论视角
标准语言模型:直接从输入 预测答案 :
CoT 语言模型:显式生成中间推理步骤 (思维链),再预测答案:
实践中取单条 CoT 路径的近似:,其中 是模型自回归生成的推理链。
Token Budget 视角:推理链 占用 个 token,每个 token 对应模型一次完整的 attention + FFN 计算。更多 token = 更多”计算步骤” = 更大的有效计算深度。
CoT 本质上是用推理时计算(inference-time compute)弥补模型参数容量的不足——把”一步完成的困难跳跃”分解成”多步可完成的简单推导”。
📐 主要解码策略的数学定义
Greedy Decoding:
Beam Search(束宽 ,带长度归一化):
每步保留联合分数最高的 条路径,最终从 条完整序列中选最优。
Temperature Sampling:
- :趋向 greedy(最确定);:趋向均匀(最随机);:原始分布
Top-p (Nucleus) Sampling:
按概率降序排列词汇,取累积概率刚超过 的最小集合,再在此集合内按归一化概率采样。自适应调整候选集大小——分布尖锐时 小,分布平坦时 大。
L09 补充:CoT 的实证发现与 Zero-shot CoT
Few-shot CoT 的涌现性(Wei et al., 2022)
CoT 是模型规模的涌现能力,在 <100B 参数模型上几乎无效:
| 模型系列 | 参数量 | Standard(GSM8K) | CoT(GSM8K) |
|---|---|---|---|
| LaMDA | 137B | ~17% | ~27% |
| GPT | 175B | ~15% | ~46% |
| PaLM | 540B | ~18% | ~57% |
| PaLM(小) | 8B | < 5% | < 5%(无效) |
Zero-shot CoT(Kojima et al., 2022)
无需人工写推理示例,在问题后追加触发语句即可激活 CoT:
触发语句效果排名(GSM8K,Zhou et al., 2022):
| 触发语句 | 准确率 |
|---|---|
| ”Let’s work this out step by step to be sure we have the right answer.” | 82.0% |
| “Let’s think step by step.” | 78.7% |
| “First,“ | 77.3% |
| 无触发(zero-shot 基线) | 17.7% |
Zero-shot CoT 的安全隐患(Shaikh et al., 2023): Zero-shot CoT 可能放大有害内容生成——“Let’s think step by step”触发推理模式后,模型对有害问题的拒绝率从 ~70% 下降到 ~30%。
讲座关联
- 本文的概率论视角(L12)+ 实证发现(L09)共同构成 CoT 的完整图景
- L09 的 prompting 全景分析见 prompting-完整分析