Test-Time Compute
分类: 基础理论
Test-Time Compute
定义
在推理阶段通过增加计算量来提升模型性能的策略,与传统的训练时扩展(scaling laws)形成互补,核心思想是”推理时多想一会儿”
核心要点
主要范式:多次采样+投票(Best-of-N)、链式思维(CoT)、树搜索(ToT/MCTS)、迭代修正(Self-Refine)
Scaling 规律:推理时计算的边际收益随问题难度变化——简单问题收益递减快,困难问题持续受益
代表性实现:OpenAI o1/o3 系列通过内部 CoT 消耗更多推理 token 换取推理能力提升
代表工作
Snell et al. (2024): “Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters”
OpenAI o1 (2024): 商业化的推理时计算扩展系统
DeepSeek-R1 (2025): 通过 GRPO 强化学习训练出推理时长思考能力