AdamW

分类: 训练优化

type:: concept aliases:: Adam Optimizer, Adam with Decoupled Weight Decay

  • AdamW

  • 定义

  • Adam 优化器的改进版本,将权重衰减(weight decay)从梯度更新中解耦,直接作用于参数本身

  • 数学形式

θt+1=θtη(m^tv^t+ϵ+λθt)\theta_{t+1} = \theta_t - \eta \Big(\frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon} + \lambda \theta_t\Big)

其中 λ\lambda 为解耦的权重衰减系数,m^t,v^t\hat{m}_t, \hat{v}_t 为偏差修正后的一阶和二阶矩估计。

  • 核心要点

  • 解耦权重衰减与自适应学习率,避免 Adam 中 L2 正则化被自适应缩放稀释的问题

  • 已成为 Transformer 训练的默认优化器

  • 由 Loshchilov & Hutter (2019) 提出

  • 代表工作

  • HiAP: 使用 AdamW 优化门控参数和网络权重

  • 相关概念

  • 知识蒸馏