L1 正则化

分类: 训练优化

L1 正则化

定义

在损失函数中添加参数的 L1 范数(绝对值之和)作为惩罚项,鼓励参数稀疏化

数学形式

Lreg=Ltask+λiwi\mathcal{L}_{\text{reg}} = \mathcal{L}_{\text{task}} + \lambda \sum_{i} |w_i|

λ\lambda: 正则化系数

wiw_i: 模型参数

核心要点

L1 范数的次梯度在零点不连续,倾向于将参数推向精确的零,从而产生稀疏解

与 L2 正则化(权重衰减)不同,L1 正则化产生真正的稀疏性而非仅缩小权重

在统计学中称为 Lasso(Least Absolute Shrinkage and Selection Operator)

可用于特征选择和模型压缩

训练后稀疏参数可直接移除,实现模型压缩

代表工作

GNAP: 使用门控变量的 L1 范数作为稀疏正则项,鼓励最大化剪枝

相关概念

结构化剪枝

Gumbel-Softmax

ART