CS224N / 学习笔记

CosineAnnealingLR

分类: 训练优化

CosineAnnealingLR

定义

按余弦函数曲线周期性衰减学习率的调度策略，使训练在平坦极小值附近充分收敛

数学形式

\eta_t = \eta_{min} + \frac{1}{2}(\eta_{max} - \eta_{min})\left(1 + \cos\left(\frac{t}{T_{max}} \pi\right)\right)

核心要点

学习率从 $\eta_{max}$ 平滑衰减到 $\eta_{min}$ ，避免阶梯式调度的突变

可设 warm restart（SGDR）实现多周期退火

PyTorch 中 torch.optim.lr_scheduler.CosineAnnealingLR 直接可用

在 Big2Small 中配合 AdamW 使用， $T_{max} = 200$

代表工作

SGDR (Loshchilov & Hutter, 2017): 提出余弦退火 + warm restart

Big2Small: 用于 INR 训练的学习率调度

相关概念