AdamW
分类: 训练优化
type:: concept aliases:: Adam Optimizer, Adam with Decoupled Weight Decay
-
AdamW
-
定义
-
Adam 优化器的改进版本,将权重衰减(weight decay)从梯度更新中解耦,直接作用于参数本身
-
数学形式
其中 为解耦的权重衰减系数, 为偏差修正后的一阶和二阶矩估计。
分类: 训练优化
type:: concept aliases:: Adam Optimizer, Adam with Decoupled Weight Decay
Adam 优化器的改进版本,将权重衰减(weight decay)从梯度更新中解耦,直接作用于参数本身
其中 为解耦的权重衰减系数, 为偏差修正后的一阶和二阶矩估计。