Scaling LLM Test-Time Compute Optimally Can be More Effective than Scaling Model Parameters

作者: Charlie Snell, Jaehoon Lee, Kelvin Xu, Aviral Kumar 年份: 2024 会议: arXiv 分类: 基础理论

论文笔记:Test-Time-Compute-Scaling

一句话总结

  • 系统研究如何最优地分配推理时计算资源(test-time compute),发现在推理阶段增加计算(如多次采样、搜索)可以补偿模型规模的不足,小模型+更多推理计算有时优于大模型。

核心贡献

  • 两类推理时计算策略:区分并对比(1)基于采样的方法(Self-Consistency、Best-of-N + verifier)和(2)基于修改分布的方法(beam search、tree search + PRM 引导)
  • Compute-Optimal Scaling:提出根据问题难度动态分配推理时计算的策略——简单问题少采样、难题多搜索,比均匀分配计算量高效 4 倍以上
  • 模型规模 vs 推理计算的权衡:在固定总 FLOPs 预算下,14× 更多推理计算的小模型可以超过 1× 推理计算的大模型(最多 14B vs 70B 量级的对比)
  • Verifier 的关键作用:过程奖励模型(PRM)引导的 tree search 显著优于无引导的多次采样,特别是在难题上,PRM 的质量是推理时 scaling 的瓶颈

相关概念