CS224N / 学习笔记

#test-time-compute #scaling #reasoning #推理时计算 #搜索

Scaling LLM Test-Time Compute Optimally Can be More Effective than Scaling Model Parameters

作者: Charlie Snell, Jaehoon Lee, Kelvin Xu, Aviral Kumar 年份: 2024 会议: arXiv 分类: 基础理论

论文笔记：Test-Time-Compute-Scaling

一句话总结

系统研究如何最优地分配推理时计算资源（test-time compute），发现在推理阶段增加计算（如多次采样、搜索）可以补偿模型规模的不足，小模型+更多推理计算有时优于大模型。

核心贡献

两类推理时计算策略：区分并对比（1）基于采样的方法（Self-Consistency、Best-of-N + verifier）和（2）基于修改分布的方法（beam search、tree search + PRM 引导）
Compute-Optimal Scaling：提出根据问题难度动态分配推理时计算的策略——简单问题少采样、难题多搜索，比均匀分配计算量高效 4 倍以上
模型规模 vs 推理计算的权衡：在固定总 FLOPs 预算下，14× 更多推理计算的小模型可以超过 1× 推理计算的大模型（最多 14B vs 70B 量级的对比）
Verifier 的关键作用：过程奖励模型（PRM）引导的 tree search 显著优于无引导的多次采样，特别是在难题上，PRM 的质量是推理时 scaling 的瓶颈

相关概念

Test-Time Compute
过程奖励模型
Self-Consistency
Scaling Law
搜索算法
推理