Chain-of-Thought

分类: 基础理论

定义

思维链是一种提示策略，通过在输入中加入中间推理步骤的示例，引导大语言模型生成逐步推理过程而非直接输出答案，从而显著提升模型在复杂推理任务上的表现。

核心思想：让模型”展示工作过程”——将复杂问题分解为多个中间推理步骤，逐步推导出最终答案

Few-shot CoT：在 prompt 中提供带推理步骤的示例（Wei et al., 2022）

Zero-shot CoT：仅添加”Let’s think step by step”即可触发推理能力（Kojima et al., 2022），揭示推理能力是 LLM 的涌现行为

CoT 的效果随模型规模增长而显著提升，小模型（<10B 参数）几乎无法受益，体现了 Scaling Laws 下的涌现现象

Self-Consistency（Wang et al., 2023）通过多次采样 CoT 路径并投票选择最一致的答案，进一步提升推理准确率

CoT 在算术推理、常识推理、符号推理等任务上带来显著提升，但在简单事实检索任务上增益有限

Wei et al. (2022): “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models” (NeurIPS 2022)，CoT 原始论文

Kojima et al. (2022): “Large Language Models are Zero-Shot Reasoners”，Zero-shot CoT

Wang et al. (2023): “Self-Consistency Improves Chain of Thought Reasoning in Language Models” (ICLR 2023)

Yao et al. (2023): “Tree of Thoughts: Deliberate Problem Solving with Large Language Models”，将 CoT 扩展为树搜索