Cosine Annealing

分类: 训练优化

Cosine Annealing

定义

一种学习率调度策略,按余弦函数平滑地将学习率从初始值衰减到接近零

数学形式

ηt=ηmin+12(ηmaxηmin)(1+cos(tTπ))\eta_t = \eta_{\min} + \frac{1}{2}(\eta_{\max} - \eta_{\min})\left(1 + \cos\left(\frac{t}{T}\pi\right)\right)

核心要点

相比 step decay 更平滑,避免学习率骤降

在训练初期保持较大学习率探索,后期逐步精细收敛

常与 warm-up 配合使用(先线性升温再余弦退火)

变体:Cosine Annealing with Warm Restarts (SGDR)

代表工作

AGF: 教师模型训练使用 Cosine Annealing 调度

相关概念

AdamW