Cosine Decay

分类: 训练优化

Cosine Decay

定义

学习率按余弦函数从初始值平滑衰减到最小值的调度策略

数学形式

ηt=ηmin+12(ηmaxηmin)(1+costπT)\eta_t = \eta_{\min} + \frac{1}{2}(\eta_{\max} - \eta_{\min})\left(1 + \cos\frac{t\pi}{T}\right)

核心要点

比阶梯衰减更平滑,避免学习率突变

广泛用于现代 LLM 预训练

可与 warmup 结合使用

代表工作

MTP-D: 使用 cosine decay 从 3×1043 \times 10^{-4} 到 0

相关概念

AdamW