L1 正则化

分类: 训练优化

定义

在损失函数中添加参数的 L1 范数（绝对值之和）作为惩罚项，鼓励参数稀疏化

\mathcal{L}_{\text{reg}} = \mathcal{L}_{\text{task}} + \lambda \sum_{i} |w_i|

$\lambda$ : 正则化系数

$w_i$ : 模型参数

L1 范数的次梯度在零点不连续，倾向于将参数推向精确的零，从而产生稀疏解

与 L2 正则化（权重衰减）不同，L1 正则化产生真正的稀疏性而非仅缩小权重

在统计学中称为 Lasso（Least Absolute Shrinkage and Selection Operator）

可用于特征选择和模型压缩

训练后稀疏参数可直接移除，实现模型压缩

GNAP: 使用门控变量的 L1 范数作为稀疏正则项，鼓励最大化剪枝