Ridge Regression

分类: 训练优化

Ridge Regression

定义

带 L2 正则化的线性回归方法,通过在损失函数中添加权重平方惩罚项来防止过拟合和处理多重共线性

数学形式

w^=argminw{Xwy2+λw2}=(XX+λI)1Xy\hat{w} = \arg\min_{w} \left\{ \| Xw - y \|^2 + \lambda \| w \|^2 \right\} = (X^\top X + \lambda I)^{-1} X^\top y

核心要点

正则化: 超参数 λ>0\lambda > 0 控制正则化强度,λ=0\lambda = 0 退化为普通最小二乘

闭式解: 相比 Lasso(L1),Ridge 有解析解且求解更稳定

与 L1 的区别: Ridge 缩小但不置零权重(不做特征选择),Lasso 可以产生稀疏解

在 Transformer 分析中的应用: 用多项式 + 三角函数特征拟合层索引到权重的映射,度量权重可预测性(R2R^2

代表工作

Growth Transformer Training: 用 Ridge Regression 分析 SmolLM2-135M 的权重可预测性,发现 MLP 权重 R2>0.9R^2 > 0.9 但功能不可替换

相关概念

SVD

Hessian