SVD-Softmax

分类: 高效推理与部署

SVD-Softmax

定义

通过 SVD 低秩分解加速大词表 softmax 层的 training-free 方法,先用低秩近似快速筛选 top-n 候选,再精确计算

核心要点

由 Shim et al. (2017) 在 NeurIPS 提出

将分类头权重矩阵做 SVD 分解,Stage 1 用低秩近似 O(vr)O(vr) 粗筛,Stage 2 对 top-n 精确计算

局限:概率仅在高似然 token 上可靠,低频 token 的概率估计不准确

在 GPU 上有一定加速(3.18× 分类头加速),但精度下降明显(BBH 从 0.38 降至 0.13)

在 CPU 上反而比 baseline 更慢(0.51×)

代表工作

FlashHead: 对比方法,FlashHead 在精度和效率上全面超越 SVD-Softmax

相关概念

低秩分解

classification head

SVD