SOAP 分类: 训练优化SOAP 定义 一种面向大规模预训练的优化器,旨在改进 AdamW 的二阶动量估计,通过更高效的方式近似 Hessian 信息来加速收敛 核心要点 改进 Adam 系优化器的动量估计机制 目标是在大规模 LLM 预训练中提供更好的收敛速度 与 AdamW 相比需要额外的内存开销来存储辅助状态 相关概念 AdamW Muon GaLore