Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

作者: Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, Denny Zhou 年份: 2022 会议: NeurIPS 分类: 基础理论

论文笔记：Chain-of-Thought

元信息

项目	内容
机构	Google Brain
日期	January 2022
对比基线	Standard prompting (few-shot), fine-tuned SOTA
链接	arXiv

一句话总结

发现在 few-shot prompting 中加入中间推理步骤（chain of thought），可以在 >100B 参数的大模型中涌现推理能力，在算术、常识和符号推理任务上大幅超越标准提示方法，且无需任何微调。

核心贡献

Chain-of-Thought Prompting: 提出在 few-shot 示例中展示逐步推理过程（而非仅给出答案），让模型在推理时也生成中间步骤

涌现现象（Emergence）: 发现 CoT 的效果与模型规模高度相关——在 ~100B 参数以上涌现，小模型反而因 CoT 而性能下降，揭示了推理能力的规模涌现特性

通用性验证: 在三大类推理任务（算术推理、常识推理、符号推理）的多个 benchmark 上验证有效性

无需微调的推理增强: 仅通过修改 prompt 格式即可显著提升推理能力，无需额外训练数据或梯度更新

问题背景

要解决的问题

大语言模型在需要多步推理的任务上表现不佳，直接给出答案时经常犯逻辑错误，尤其在算术和符号操作任务上

现有方法的局限

标准 few-shot prompting: 只提供 (输入, 输出) 对作为示例，模型无法学到中间推理过程

任务特定微调: 需要为每个推理任务收集标注数据并微调模型，泛化性差且成本高

Scratchpad / Rationale 方法: Nye et al. (2021) 和 Ling et al. (2017) 探索了训练时加入中间步骤，但需要大量标注的推理链数据

本文的动机

如果推理能力已经隐含在大型预训练模型中，能否通过简单的 prompt 设计将其”引导”出来？关键假设：示范中间推理步骤可以激发模型的隐含推理能力

方法详解

Chain-of-Thought Prompting 方法

核心思想: 在 few-shot 示例中，不仅展示问题和答案，还展示从问题到答案的完整推理过程

实现方式: 纯 prompt 工程，无需任何模型修改或额外训练

Few-Shot CoT 示例格式

标准 few-shot（baseline）:

Q: Roger has 5 tennis balls. He buys 2 cans of 3. How many does he have now?
A: The answer is 11.

Chain-of-Thought few-shot:

Q: Roger has 5 tennis balls. He buys 2 cans of 3. How many does he have now?
A: Roger started with 5 balls. 2 cans of 3 tennis balls each is 6. 5 + 6 = 11.
The answer is 11.

关键区别在于 “A:” 后面先展示推理步骤，再给出最终答案

涌现与规模关系

CoT 的效果呈现明显的规模阶梯效应：

<10B 参数: CoT 不仅无效，甚至降低性能（模型生成不连贯的”推理”步骤）
10B-100B 参数: 效果不稳定，部分任务有提升
>100B 参数: CoT 带来显著且一致的提升，在 GSM8K 上 PaLM 540B + CoT 的准确率几乎是标准 prompting 的两倍

这一发现支持了”涌现能力”（emergent abilities）假说——某些能力只有在模型规模跨过临界点后才会出现

评估的三类推理任务

算术推理（Arithmetic Reasoning）

GSM8K: 小学数学应用题，需要 2-8 步推理
SVAMP: 一步数学应用题变体
ASDiv: 多样化数学应用题
AQuA: 代数应用题（选择题）
MAWPS: 数学应用题集合

常识推理（Commonsense Reasoning）

CommonsenseQA (CSQA): 需要常识知识的选择题
StrategyQA: 需要多步隐式推理的是非题
Sports Understanding: 判断体育陈述的真伪
Date Understanding: 日期相关的推理问题
SayCan: 机器人任务规划

符号推理（Symbolic Reasoning）

Last Letter Concatenation: 将多个单词的最后一个字母拼接
Coin Flip: 追踪硬币翻转后的状态

关键公式

形式化描述

标准 few-shot prompting 的条件概率：

p(a | x, \{(x_i, a_i)\}_{i=1}^{k})

Chain-of-Thought prompting 引入中间推理链 $c$ ：

p(a | x, \{(x_i, c_i, a_i)\}_{i=1}^{k}) = \sum_{c} p(c | x, \text{demos}) \cdot p(a | x, c)

含义: CoT prompting 通过示范推理链 $c_i$ ，引导模型先生成自己的推理链 $c$ ，再基于推理链得出答案 $a$

符号说明:

$x$ : 输入问题
$a$ : 最终答案
$c$ : 中间推理链（chain of thought）
$(x_i, c_i, a_i)$ : few-shot 示例（问题、推理链、答案）
$k$ : few-shot 示例数量（通常 4-8）

实验结果

算术推理

模型	方法	GSM8K	SVAMP	ASDiv	AQuA	MAWPS
GPT-3 175B	Standard	15.6%	65.7%	71.3%	24.8%	80.4%
GPT-3 175B	CoT	46.9%	74.5%	76.9%	35.8%	87.1%
PaLM 540B	Standard	17.9%	79.0%	73.9%	25.2%	84.7%
PaLM 540B	CoT	56.9%	79.0%	80.4%	35.8%	93.3%
Fine-tuned SOTA	—	55.0%	57.4%	75.3%	37.9%	—

PaLM 540B + CoT 在 GSM8K 上达到 56.9%，超越当时的 fine-tuned SOTA (55.0%)，而且无需任何训练

常识推理

模型	方法	CSQA	StrategyQA
PaLM 540B	Standard	79.0%	74.3%
PaLM 540B	CoT	79.9%	77.8%

常识推理提升幅度小于算术推理，因为常识任务的推理步骤更隐式、更难分解

符号推理

任务	模型	Standard	CoT
Last Letter (2 words)	PaLM 540B	77.5%	97.5%
Last Letter (4 words, OOD)	PaLM 540B	20.0%	74.0%
Coin Flip (4 flips, OOD)	PaLM 540B	50.0%	100%

CoT 在符号推理上表现尤为突出，尤其是 out-of-distribution 泛化（训练示例为 2 词，测试 4 词）

Ablation Studies

推理链质量: 用错误的推理链（逻辑错误但格式正确）替换正确推理链后，性能显著下降，说明模型确实在”利用”推理链的逻辑内容，而非仅仅被格式触发

方程式替代: 用数学方程式替代自然语言推理链，性能不如 CoT——自然语言推理更有效

推理链在答案之后: 将推理链放在答案之后（“A: 11. Because …”），性能回落到标准 prompting 水平，证明推理链必须在答案之前生成才有效

示例数量: 仅 1 个 CoT 示例就能带来显著提升，但 4-8 个效果更稳定

局限性

严格依赖模型规模: <100B 参数的模型使用 CoT 可能反而降低性能，这限制了该方法在小模型上的应用

无法保证推理链正确性: 模型生成的 CoT 可能包含逻辑错误但仍得到正确答案（“right answer, wrong reason”），也可能推理过程正确但最终计算失误

推理链标注成本: few-shot 示例中的推理链需要人工精心编写，不同任务需要不同的推理链模板

计算成本增加: 生成推理链意味着输出更多 token，增加了推理时的计算和延迟

非形式化: CoT 的成功机制缺乏理论解释——为什么自然语言推理链能引导正确推理？

速查卡片

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

核心: 在 few-shot 示例中加入中间推理步骤，激发大模型的推理能力
方法: 纯 prompt 工程，无需微调；在示例中展示”思维链”推理过程
结果: PaLM 540B + CoT 在 GSM8K 达 56.9%（超越 fine-tuned SOTA）；能力在 >100B 规模涌现；小模型无效
意义: 开创了 prompt-based 推理增强范式，催生了 Self-Consistency、ToT、ReAct 等后续工作

笔记创建时间: 2026-04-03