Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
论文笔记:Chain-of-Thought
元信息
| 项目 | 内容 |
|---|---|
| 机构 | Google Brain |
| 日期 | January 2022 |
| 对比基线 | Standard prompting (few-shot), fine-tuned SOTA |
| 链接 | arXiv |
一句话总结
发现在 few-shot prompting 中加入中间推理步骤(chain of thought),可以在 >100B 参数的大模型中涌现推理能力,在算术、常识和符号推理任务上大幅超越标准提示方法,且无需任何微调。
核心贡献
Chain-of-Thought Prompting: 提出在 few-shot 示例中展示逐步推理过程(而非仅给出答案),让模型在推理时也生成中间步骤
涌现现象(Emergence): 发现 CoT 的效果与模型规模高度相关——在 ~100B 参数以上涌现,小模型反而因 CoT 而性能下降,揭示了推理能力的规模涌现特性
通用性验证: 在三大类推理任务(算术推理、常识推理、符号推理)的多个 benchmark 上验证有效性
无需微调的推理增强: 仅通过修改 prompt 格式即可显著提升推理能力,无需额外训练数据或梯度更新
问题背景
要解决的问题
大语言模型在需要多步推理的任务上表现不佳,直接给出答案时经常犯逻辑错误,尤其在算术和符号操作任务上
现有方法的局限
标准 few-shot prompting: 只提供 (输入, 输出) 对作为示例,模型无法学到中间推理过程
任务特定微调: 需要为每个推理任务收集标注数据并微调模型,泛化性差且成本高
Scratchpad / Rationale 方法: Nye et al. (2021) 和 Ling et al. (2017) 探索了训练时加入中间步骤,但需要大量标注的推理链数据
本文的动机
如果推理能力已经隐含在大型预训练模型中,能否通过简单的 prompt 设计将其”引导”出来?关键假设:示范中间推理步骤可以激发模型的隐含推理能力
方法详解
Chain-of-Thought Prompting 方法
核心思想: 在 few-shot 示例中,不仅展示问题和答案,还展示从问题到答案的完整推理过程
实现方式: 纯 prompt 工程,无需任何模型修改或额外训练
Few-Shot CoT 示例格式
标准 few-shot(baseline):
Q: Roger has 5 tennis balls. He buys 2 cans of 3. How many does he have now?
A: The answer is 11.
Chain-of-Thought few-shot:
Q: Roger has 5 tennis balls. He buys 2 cans of 3. How many does he have now?
A: Roger started with 5 balls. 2 cans of 3 tennis balls each is 6. 5 + 6 = 11.
The answer is 11.
关键区别在于 “A:” 后面先展示推理步骤,再给出最终答案
涌现与规模关系
CoT 的效果呈现明显的规模阶梯效应:
- <10B 参数: CoT 不仅无效,甚至降低性能(模型生成不连贯的”推理”步骤)
- 10B-100B 参数: 效果不稳定,部分任务有提升
- >100B 参数: CoT 带来显著且一致的提升,在 GSM8K 上 PaLM 540B + CoT 的准确率几乎是标准 prompting 的两倍
这一发现支持了”涌现能力”(emergent abilities)假说——某些能力只有在模型规模跨过临界点后才会出现
评估的三类推理任务
算术推理(Arithmetic Reasoning)
- GSM8K: 小学数学应用题,需要 2-8 步推理
- SVAMP: 一步数学应用题变体
- ASDiv: 多样化数学应用题
- AQuA: 代数应用题(选择题)
- MAWPS: 数学应用题集合
常识推理(Commonsense Reasoning)
- CommonsenseQA (CSQA): 需要常识知识的选择题
- StrategyQA: 需要多步隐式推理的是非题
- Sports Understanding: 判断体育陈述的真伪
- Date Understanding: 日期相关的推理问题
- SayCan: 机器人任务规划
符号推理(Symbolic Reasoning)
- Last Letter Concatenation: 将多个单词的最后一个字母拼接
- Coin Flip: 追踪硬币翻转后的状态
关键公式
形式化描述
标准 few-shot prompting 的条件概率:
Chain-of-Thought prompting 引入中间推理链 :
含义: CoT prompting 通过示范推理链 ,引导模型先生成自己的推理链 ,再基于推理链得出答案
符号说明:
- : 输入问题
- : 最终答案
- : 中间推理链(chain of thought)
- : few-shot 示例(问题、推理链、答案)
- : few-shot 示例数量(通常 4-8)
实验结果
算术推理
| 模型 | 方法 | GSM8K | SVAMP | ASDiv | AQuA | MAWPS |
|---|---|---|---|---|---|---|
| GPT-3 175B | Standard | 15.6% | 65.7% | 71.3% | 24.8% | 80.4% |
| GPT-3 175B | CoT | 46.9% | 74.5% | 76.9% | 35.8% | 87.1% |
| PaLM 540B | Standard | 17.9% | 79.0% | 73.9% | 25.2% | 84.7% |
| PaLM 540B | CoT | 56.9% | 79.0% | 80.4% | 35.8% | 93.3% |
| Fine-tuned SOTA | — | 55.0% | 57.4% | 75.3% | 37.9% | — |
PaLM 540B + CoT 在 GSM8K 上达到 56.9%,超越当时的 fine-tuned SOTA (55.0%),而且无需任何训练
常识推理
| 模型 | 方法 | CSQA | StrategyQA |
|---|---|---|---|
| PaLM 540B | Standard | 79.0% | 74.3% |
| PaLM 540B | CoT | 79.9% | 77.8% |
常识推理提升幅度小于算术推理,因为常识任务的推理步骤更隐式、更难分解
符号推理
| 任务 | 模型 | Standard | CoT |
|---|---|---|---|
| Last Letter (2 words) | PaLM 540B | 77.5% | 97.5% |
| Last Letter (4 words, OOD) | PaLM 540B | 20.0% | 74.0% |
| Coin Flip (4 flips, OOD) | PaLM 540B | 50.0% | 100% |
CoT 在符号推理上表现尤为突出,尤其是 out-of-distribution 泛化(训练示例为 2 词,测试 4 词)
Ablation Studies
推理链质量: 用错误的推理链(逻辑错误但格式正确)替换正确推理链后,性能显著下降,说明模型确实在”利用”推理链的逻辑内容,而非仅仅被格式触发
方程式替代: 用数学方程式替代自然语言推理链,性能不如 CoT——自然语言推理更有效
推理链在答案之后: 将推理链放在答案之后(“A: 11. Because …”),性能回落到标准 prompting 水平,证明推理链必须在答案之前生成才有效
示例数量: 仅 1 个 CoT 示例就能带来显著提升,但 4-8 个效果更稳定
局限性
严格依赖模型规模: <100B 参数的模型使用 CoT 可能反而降低性能,这限制了该方法在小模型上的应用
无法保证推理链正确性: 模型生成的 CoT 可能包含逻辑错误但仍得到正确答案(“right answer, wrong reason”),也可能推理过程正确但最终计算失误
推理链标注成本: few-shot 示例中的推理链需要人工精心编写,不同任务需要不同的推理链模板
计算成本增加: 生成推理链意味着输出更多 token,增加了推理时的计算和延迟
非形式化: CoT 的成功机制缺乏理论解释——为什么自然语言推理链能引导正确推理?
相关概念
- Few-Shot Learning
- In-Context Learning
- Emergent Abilities
- Prompt Engineering
- Self-Consistency
- Tree of Thoughts
- Scaling Law
- PaLM
- GPT-3
- Zero-Shot CoT
速查卡片
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
- 核心: 在 few-shot 示例中加入中间推理步骤,激发大模型的推理能力
- 方法: 纯 prompt 工程,无需微调;在示例中展示”思维链”推理过程
- 结果: PaLM 540B + CoT 在 GSM8K 达 56.9%(超越 fine-tuned SOTA);能力在 >100B 规模涌现;小模型无效
- 意义: 开创了 prompt-based 推理增强范式,催生了 Self-Consistency、ToT、ReAct 等后续工作
笔记创建时间: 2026-04-03