GradMax
分类: 模型增长
GradMax
定义
GradMax 是一种模型增长方法,通过最大化新添加神经元对损失梯度的贡献来初始化新参数,使新结构在添加后能立即对训练产生最大正向影响
数学形式
添加新神经元时,初始化权重 使得:
在保持 function-preserving 的约束下,通过 SVD 分解已有权重矩阵的梯度信息来确定新神经元的最优初始化方向
核心要点
属于 informed growth 方法:不是随机初始化新参数,而是利用梯度信息做最优初始化
与 function-preserving 兼容,可以在不改变当前函数的前提下添加新容量
核心思想:新神经元应该沿着当前 loss landscape 下降最快的方向初始化
GNAP 将 GradMax 作为 growth baseline 对比,GradMax 只管增长不管剪枝
代表工作
Evci et al., 2022: 提出 GradMax,NeurIPS 2022
GNAP: 对比 GradMax,指出 GradMax 缺少配套的剪枝机制
相关概念
function-preserving — GradMax 是 function-preserving growth 的梯度优化版本
progressive training — GradMax 可用于渐进式训练中的扩容阶段