Test-Time Compute

分类: 基础理论

Test-Time Compute

定义

在推理阶段通过增加计算量来提升模型性能的策略,与传统的训练时扩展(scaling laws)形成互补,核心思想是”推理时多想一会儿”

核心要点

主要范式:多次采样+投票(Best-of-N)、链式思维(CoT)、树搜索(ToT/MCTS)、迭代修正(Self-Refine)

Scaling 规律:推理时计算的边际收益随问题难度变化——简单问题收益递减快,困难问题持续受益

代表性实现:OpenAI o1/o3 系列通过内部 CoT 消耗更多推理 token 换取推理能力提升

代表工作

Snell et al. (2024): “Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters”

OpenAI o1 (2024): 商业化的推理时计算扩展系统

DeepSeek-R1 (2025): 通过 GRPO 强化学习训练出推理时长思考能力

相关概念

GRPO

RLHF