Self-Consistency Improves Chain of Thought Reasoning in Language Models

作者: Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Sharan Narang, Aakanksha Chowdhery, Denny Zhou 年份: 2023 会议: ICLR 分类: 基础理论

论文笔记:Self-Consistency

一句话总结

  • 提出自一致性(Self-Consistency)解码策略:对同一问题多次采样不同推理路径,然后对最终答案进行多数投票,显著提升 chain-of-thought 推理的准确性。

核心贡献

  • 核心思想:复杂推理问题通常有多条正确推理路径,通过多次采样(temperature > 0)生成多样化的推理链,对最终答案取 majority vote,比单次 greedy decoding 更鲁棒
  • 无需额外训练:Self-Consistency 是纯推理时技巧,适用于任何已经能做 CoT 推理的模型,零额外训练成本
  • 大幅提升准确率:在 GSM8K 上将 CoT 的准确率从 ~56% 提升到 ~74%(PaLM 540B),在 ARC-Challenge、StrategyQA 等多个推理基准上均有显著提升
  • 采样数量-收益曲线:实验表明 5-40 次采样即可获得大部分收益,收益随采样数递减,提供了实用的计算预算指南

相关概念