CS224N / 学习笔记

AdamW

分类: 训练优化

type:: concept aliases:: Adam Optimizer, Adam with Decoupled Weight Decay

AdamW
定义
Adam 优化器的改进版本，将权重衰减（weight decay）从梯度更新中解耦，直接作用于参数本身
数学形式

\theta_{t+1} = \theta_t - \eta \Big(\frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon} + \lambda \theta_t\Big)

其中 $\lambda$ 为解耦的权重衰减系数， $\hat{m}_t, \hat{v}_t$ 为偏差修正后的一阶和二阶矩估计。

核心要点
解耦权重衰减与自适应学习率，避免 Adam 中 L2 正则化被自适应缩放稀释的问题
已成为 Transformer 训练的默认优化器
由 Loshchilov & Hutter (2019) 提出
代表工作
HiAP: 使用 AdamW 优化门控参数和网络权重
相关概念
知识蒸馏