Cosine Decay 分类: 训练优化Cosine Decay 定义 学习率按余弦函数从初始值平滑衰减到最小值的调度策略 数学形式 ηt=ηmin+12(ηmax−ηmin)(1+costπT)\eta_t = \eta_{\min} + \frac{1}{2}(\eta_{\max} - \eta_{\min})\left(1 + \cos\frac{t\pi}{T}\right)ηt=ηmin+21(ηmax−ηmin)(1+cosTtπ) 核心要点 比阶梯衰减更平滑,避免学习率突变 广泛用于现代 LLM 预训练 可与 warmup 结合使用 代表工作 MTP-D: 使用 cosine decay 从 3×10−43 \times 10^{-4}3×10−4 到 0 相关概念 AdamW