SOAP

分类: 训练优化

SOAP

定义

  • 一种面向大规模预训练的优化器,旨在改进 AdamW 的二阶动量估计,通过更高效的方式近似 Hessian 信息来加速收敛

核心要点

  • 改进 Adam 系优化器的动量估计机制
  • 目标是在大规模 LLM 预训练中提供更好的收敛速度
  • 与 AdamW 相比需要额外的内存开销来存储辅助状态

相关概念