CS224N / 学习笔记

#chain-of-thought #self-consistency #reasoning #推理 #采样

Self-Consistency Improves Chain of Thought Reasoning in Language Models

作者: Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Sharan Narang, Aakanksha Chowdhery, Denny Zhou 年份: 2023 会议: ICLR 分类: 基础理论

论文笔记：Self-Consistency

一句话总结

提出自一致性（Self-Consistency）解码策略：对同一问题多次采样不同推理路径，然后对最终答案进行多数投票，显著提升 chain-of-thought 推理的准确性。

核心贡献

核心思想：复杂推理问题通常有多条正确推理路径，通过多次采样（temperature > 0）生成多样化的推理链，对最终答案取 majority vote，比单次 greedy decoding 更鲁棒
无需额外训练：Self-Consistency 是纯推理时技巧，适用于任何已经能做 CoT 推理的模型，零额外训练成本
大幅提升准确率：在 GSM8K 上将 CoT 的准确率从 ~56% 提升到 ~74%（PaLM 540B），在 ARC-Challenge、StrategyQA 等多个推理基准上均有显著提升
采样数量-收益曲线：实验表明 5-40 次采样即可获得大部分收益，收益随采样数递减，提供了实用的计算预算指南

相关概念