Chain-of-Thought
分类: 基础理论
Chain-of-Thought
定义
思维链是一种提示策略,通过在输入中加入中间推理步骤的示例,引导大语言模型生成逐步推理过程而非直接输出答案,从而显著提升模型在复杂推理任务上的表现。
核心要点
核心思想:让模型”展示工作过程”——将复杂问题分解为多个中间推理步骤,逐步推导出最终答案
Few-shot CoT:在 prompt 中提供带推理步骤的示例(Wei et al., 2022)
Zero-shot CoT:仅添加”Let’s think step by step”即可触发推理能力(Kojima et al., 2022),揭示推理能力是 LLM 的涌现行为
CoT 的效果随模型规模增长而显著提升,小模型(<10B 参数)几乎无法受益,体现了 Scaling Laws 下的涌现现象
Self-Consistency(Wang et al., 2023)通过多次采样 CoT 路径并投票选择最一致的答案,进一步提升推理准确率
CoT 在算术推理、常识推理、符号推理等任务上带来显著提升,但在简单事实检索任务上增益有限
代表工作
Wei et al. (2022): “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models” (NeurIPS 2022),CoT 原始论文
Kojima et al. (2022): “Large Language Models are Zero-Shot Reasoners”,Zero-shot CoT
Wang et al. (2023): “Self-Consistency Improves Chain of Thought Reasoning in Language Models” (ICLR 2023)
Yao et al. (2023): “Tree of Thoughts: Deliberate Problem Solving with Large Language Models”,将 CoT 扩展为树搜索