Chain-of-Thought

分类: 基础理论

Chain-of-Thought

定义

思维链是一种提示策略,通过在输入中加入中间推理步骤的示例,引导大语言模型生成逐步推理过程而非直接输出答案,从而显著提升模型在复杂推理任务上的表现。

核心要点

核心思想:让模型”展示工作过程”——将复杂问题分解为多个中间推理步骤,逐步推导出最终答案

Few-shot CoT:在 prompt 中提供带推理步骤的示例(Wei et al., 2022)

Zero-shot CoT:仅添加”Let’s think step by step”即可触发推理能力(Kojima et al., 2022),揭示推理能力是 LLM 的涌现行为

CoT 的效果随模型规模增长而显著提升,小模型(<10B 参数)几乎无法受益,体现了 Scaling Laws 下的涌现现象

Self-Consistency(Wang et al., 2023)通过多次采样 CoT 路径并投票选择最一致的答案,进一步提升推理准确率

CoT 在算术推理、常识推理、符号推理等任务上带来显著提升,但在简单事实检索任务上增益有限

代表工作

Wei et al. (2022): “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models” (NeurIPS 2022),CoT 原始论文

Kojima et al. (2022): “Large Language Models are Zero-Shot Reasoners”,Zero-shot CoT

Wang et al. (2023): “Self-Consistency Improves Chain of Thought Reasoning in Language Models” (ICLR 2023)

Yao et al. (2023): “Tree of Thoughts: Deliberate Problem Solving with Large Language Models”,将 CoT 扩展为树搜索

相关概念

In-Context Learning

Scaling Laws

Language Model

Prompt Tuning