STE
分类: 剪枝与稀疏化
STE
定义
Straight-Through Estimator:在反向传播中,对不可微的离散操作(如 round、sign、threshold)用”直通”近似梯度的技巧——前向用离散值,反向直接传递上游梯度(等同于把离散函数的梯度近似为 1)。
数学形式
前向传播:(或 )
反向传播(STE 近似):
即 ,绕过了 round 函数梯度为 0 的问题。
核心要点
最初由 Bengio et al. (2013) 在二值网络中系统化提出,但思路更早(Hinton 的讲义中就有类似方法)
广泛用于量化感知训练(QAT)、Binary/Ternary 网络、L0 约束优化
局限:STE 是”近似”,引入 bias——前向值是离散的,但梯度信号假设了连续性,导致训练-推理不匹配(train-test mismatch)。DDSP 等工作正是针对这个问题提出确定性替代方案
Hard-Concrete 松弛(L0 约束的常用方法)本质上也是 STE 的一种变体
代表工作
Bengio et al., 2013: “Estimating or Propagating Gradients Through Stochastic Neurons for Conditional Computation”
SERQ:用 STE 训练低秩量化适配层
DDSP(2603.08065):提出绕过 STE 的确定性 differentiable mask,解决 train-test mismatch
HiAP: 在 Gumbel-Sigmoid 门控反向传播中使用 STE 计算梯度
相关概念
Taylor pruning — 结构化剪枝中另一种重要性估计方法,不依赖 STE
PTQ — 训练后量化,不需要 STE(STE 主要用于 QAT)
function-preserving — 增长场景中如何初始化新参数,避免 STE 类问题