Cosine Annealing
分类: 训练优化
Cosine Annealing
定义
一种学习率调度策略,按余弦函数平滑地将学习率从初始值衰减到接近零
数学形式
核心要点
相比 step decay 更平滑,避免学习率骤降
在训练初期保持较大学习率探索,后期逐步精细收敛
常与 warm-up 配合使用(先线性升温再余弦退火)
变体:Cosine Annealing with Warm Restarts (SGDR)
代表工作
AGF: 教师模型训练使用 Cosine Annealing 调度