Self-Consistency Improves Chain of Thought Reasoning in Language Models
作者: Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Sharan Narang, Aakanksha Chowdhery, Denny Zhou 年份: 2023 会议: ICLR 分类: 基础理论
论文笔记:Self-Consistency
一句话总结
- 提出自一致性(Self-Consistency)解码策略:对同一问题多次采样不同推理路径,然后对最终答案进行多数投票,显著提升 chain-of-thought 推理的准确性。
核心贡献
- 核心思想:复杂推理问题通常有多条正确推理路径,通过多次采样(temperature > 0)生成多样化的推理链,对最终答案取 majority vote,比单次 greedy decoding 更鲁棒
- 无需额外训练:Self-Consistency 是纯推理时技巧,适用于任何已经能做 CoT 推理的模型,零额外训练成本
- 大幅提升准确率:在 GSM8K 上将 CoT 的准确率从 ~56% 提升到 ~74%(PaLM 540B),在 ARC-Challenge、StrategyQA 等多个推理基准上均有显著提升
- 采样数量-收益曲线:实验表明 5-40 次采样即可获得大部分收益,收益随采样数递减,提供了实用的计算预算指南
相关概念
- Chain-of-Thought
- 多数投票
- 推理
- 采样策略
- Test-Time Compute