Hessian

分类: 训练优化

type:: concept aliases:: Hessian Matrix, 海森矩阵

  • Hessian

  • 定义

  • 损失函数对参数的二阶偏导矩阵,描述损失曲面的局部曲率

  • 数学形式

H=2Lw2Rd×d\mathbf{H} = \frac{\partial^2 \mathcal{L}}{\partial \mathbf{w}^2} \in \mathbb{R}^{d \times d}
  • PTQ 中常用输入 Hessian 近似:Hin=E[xxT]\mathbf{H}_{\text{in}} = \mathbb{E}[\mathbf{x}\mathbf{x}^T]

  • 经验估计:H~in=1NXTX\tilde{\mathbf{H}}_{\text{in}} = \frac{1}{N}\mathbf{X}^T\mathbf{X}

  • 核心要点

  • 指导量化顺序:沿 Hessian 曲率大的方向更敏感,优先补偿

  • GPTQ 基于 Hessian 逐列量化并补偿误差传播

  • LLVQ 将 Hessian 校正推广到 24 维向量量化块

  • Cholesky 分解 提供高效的 Hessian 逆求解

  • 代表工作

  • GPTQ: Hessian-based 逐列标量量化

  • LLVQ: Hessian 校正的向量量化

  • OBS/OBD: 经典的基于 Hessian 的剪枝方法

  • 相关概念

  • Cholesky 分解

  • GPTQ

  • PTQ