Test-Time Compute

分类: 基础理论

定义

在推理阶段通过增加计算量来提升模型性能的策略，与传统的训练时扩展（scaling laws）形成互补，核心思想是”推理时多想一会儿”

主要范式：多次采样+投票（Best-of-N）、链式思维（CoT）、树搜索（ToT/MCTS）、迭代修正（Self-Refine）

Scaling 规律：推理时计算的边际收益随问题难度变化——简单问题收益递减快，困难问题持续受益

代表性实现：OpenAI o1/o3 系列通过内部 CoT 消耗更多推理 token 换取推理能力提升

Snell et al. (2024): “Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters”

OpenAI o1 (2024): 商业化的推理时计算扩展系统

DeepSeek-R1 (2025): 通过 GRPO 强化学习训练出推理时长思考能力