Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

作者: Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, Denny Zhou 年份: 2022 会议: NeurIPS 分类: 基础理论

论文笔记:Chain-of-Thought

元信息

项目内容
机构Google Brain
日期January 2022
对比基线Standard prompting (few-shot), fine-tuned SOTA
链接arXiv

一句话总结

发现在 few-shot prompting 中加入中间推理步骤(chain of thought),可以在 >100B 参数的大模型中涌现推理能力,在算术、常识和符号推理任务上大幅超越标准提示方法,且无需任何微调。

核心贡献

Chain-of-Thought Prompting: 提出在 few-shot 示例中展示逐步推理过程(而非仅给出答案),让模型在推理时也生成中间步骤

涌现现象(Emergence): 发现 CoT 的效果与模型规模高度相关——在 ~100B 参数以上涌现,小模型反而因 CoT 而性能下降,揭示了推理能力的规模涌现特性

通用性验证: 在三大类推理任务(算术推理、常识推理、符号推理)的多个 benchmark 上验证有效性

无需微调的推理增强: 仅通过修改 prompt 格式即可显著提升推理能力,无需额外训练数据或梯度更新

问题背景

要解决的问题

大语言模型在需要多步推理的任务上表现不佳,直接给出答案时经常犯逻辑错误,尤其在算术和符号操作任务上

现有方法的局限

标准 few-shot prompting: 只提供 (输入, 输出) 对作为示例,模型无法学到中间推理过程

任务特定微调: 需要为每个推理任务收集标注数据并微调模型,泛化性差且成本高

Scratchpad / Rationale 方法: Nye et al. (2021) 和 Ling et al. (2017) 探索了训练时加入中间步骤,但需要大量标注的推理链数据

本文的动机

如果推理能力已经隐含在大型预训练模型中,能否通过简单的 prompt 设计将其”引导”出来?关键假设:示范中间推理步骤可以激发模型的隐含推理能力

方法详解

Chain-of-Thought Prompting 方法

核心思想: 在 few-shot 示例中,不仅展示问题和答案,还展示从问题到答案的完整推理过程

实现方式: 纯 prompt 工程,无需任何模型修改或额外训练

Few-Shot CoT 示例格式

标准 few-shot(baseline):

Q: Roger has 5 tennis balls. He buys 2 cans of 3. How many does he have now?
A: The answer is 11.

Chain-of-Thought few-shot:

Q: Roger has 5 tennis balls. He buys 2 cans of 3. How many does he have now?
A: Roger started with 5 balls. 2 cans of 3 tennis balls each is 6. 5 + 6 = 11.
The answer is 11.

关键区别在于 “A:” 后面先展示推理步骤,再给出最终答案

涌现与规模关系

CoT 的效果呈现明显的规模阶梯效应

  • <10B 参数: CoT 不仅无效,甚至降低性能(模型生成不连贯的”推理”步骤)
  • 10B-100B 参数: 效果不稳定,部分任务有提升
  • >100B 参数: CoT 带来显著且一致的提升,在 GSM8K 上 PaLM 540B + CoT 的准确率几乎是标准 prompting 的两倍

这一发现支持了”涌现能力”(emergent abilities)假说——某些能力只有在模型规模跨过临界点后才会出现

评估的三类推理任务

算术推理(Arithmetic Reasoning)

  • GSM8K: 小学数学应用题,需要 2-8 步推理
  • SVAMP: 一步数学应用题变体
  • ASDiv: 多样化数学应用题
  • AQuA: 代数应用题(选择题)
  • MAWPS: 数学应用题集合

常识推理(Commonsense Reasoning)

  • CommonsenseQA (CSQA): 需要常识知识的选择题
  • StrategyQA: 需要多步隐式推理的是非题
  • Sports Understanding: 判断体育陈述的真伪
  • Date Understanding: 日期相关的推理问题
  • SayCan: 机器人任务规划

符号推理(Symbolic Reasoning)

  • Last Letter Concatenation: 将多个单词的最后一个字母拼接
  • Coin Flip: 追踪硬币翻转后的状态

关键公式

形式化描述

标准 few-shot prompting 的条件概率:

p(ax,{(xi,ai)}i=1k)p(a | x, \{(x_i, a_i)\}_{i=1}^{k})

Chain-of-Thought prompting 引入中间推理链 cc

p(ax,{(xi,ci,ai)}i=1k)=cp(cx,demos)p(ax,c)p(a | x, \{(x_i, c_i, a_i)\}_{i=1}^{k}) = \sum_{c} p(c | x, \text{demos}) \cdot p(a | x, c)

含义: CoT prompting 通过示范推理链 cic_i,引导模型先生成自己的推理链 cc,再基于推理链得出答案 aa

符号说明:

  • xx: 输入问题
  • aa: 最终答案
  • cc: 中间推理链(chain of thought)
  • (xi,ci,ai)(x_i, c_i, a_i): few-shot 示例(问题、推理链、答案)
  • kk: few-shot 示例数量(通常 4-8)

实验结果

算术推理

模型方法GSM8KSVAMPASDivAQuAMAWPS
GPT-3 175BStandard15.6%65.7%71.3%24.8%80.4%
GPT-3 175BCoT46.9%74.5%76.9%35.8%87.1%
PaLM 540BStandard17.9%79.0%73.9%25.2%84.7%
PaLM 540BCoT56.9%79.0%80.4%35.8%93.3%
Fine-tuned SOTA55.0%57.4%75.3%37.9%

PaLM 540B + CoT 在 GSM8K 上达到 56.9%,超越当时的 fine-tuned SOTA (55.0%),而且无需任何训练

常识推理

模型方法CSQAStrategyQA
PaLM 540BStandard79.0%74.3%
PaLM 540BCoT79.9%77.8%

常识推理提升幅度小于算术推理,因为常识任务的推理步骤更隐式、更难分解

符号推理

任务模型StandardCoT
Last Letter (2 words)PaLM 540B77.5%97.5%
Last Letter (4 words, OOD)PaLM 540B20.0%74.0%
Coin Flip (4 flips, OOD)PaLM 540B50.0%100%

CoT 在符号推理上表现尤为突出,尤其是 out-of-distribution 泛化(训练示例为 2 词,测试 4 词)

Ablation Studies

推理链质量: 用错误的推理链(逻辑错误但格式正确)替换正确推理链后,性能显著下降,说明模型确实在”利用”推理链的逻辑内容,而非仅仅被格式触发

方程式替代: 用数学方程式替代自然语言推理链,性能不如 CoT——自然语言推理更有效

推理链在答案之后: 将推理链放在答案之后(“A: 11. Because …”),性能回落到标准 prompting 水平,证明推理链必须在答案之前生成才有效

示例数量: 仅 1 个 CoT 示例就能带来显著提升,但 4-8 个效果更稳定

局限性

严格依赖模型规模: <100B 参数的模型使用 CoT 可能反而降低性能,这限制了该方法在小模型上的应用

无法保证推理链正确性: 模型生成的 CoT 可能包含逻辑错误但仍得到正确答案(“right answer, wrong reason”),也可能推理过程正确但最终计算失误

推理链标注成本: few-shot 示例中的推理链需要人工精心编写,不同任务需要不同的推理链模板

计算成本增加: 生成推理链意味着输出更多 token,增加了推理时的计算和延迟

非形式化: CoT 的成功机制缺乏理论解释——为什么自然语言推理链能引导正确推理?

相关概念

速查卡片

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

  • 核心: 在 few-shot 示例中加入中间推理步骤,激发大模型的推理能力
  • 方法: 纯 prompt 工程,无需微调;在示例中展示”思维链”推理过程
  • 结果: PaLM 540B + CoT 在 GSM8K 达 56.9%(超越 fine-tuned SOTA);能力在 >100B 规模涌现;小模型无效
  • 意义: 开创了 prompt-based 推理增强范式,催生了 Self-Consistency、ToT、ReAct 等后续工作

笔记创建时间: 2026-04-03