STE

分类: 剪枝与稀疏化

定义

Straight-Through Estimator：在反向传播中，对不可微的离散操作（如 round、sign、threshold）用”直通”近似梯度的技巧——前向用离散值，反向直接传递上游梯度（等同于把离散函数的梯度近似为 1）。

前向传播： $b = \text{round}(x)$ （或 $\text{sign}(x)$ ）

反向传播（STE 近似）： $\frac{\partial \mathcal{L}}{\partial x} \approx \frac{\partial \mathcal{L}}{\partial b}$

即 $\frac{db}{dx} \approx 1$ ，绕过了 round 函数梯度为 0 的问题。

最初由 Bengio et al. (2013) 在二值网络中系统化提出，但思路更早（Hinton 的讲义中就有类似方法）

广泛用于量化感知训练（QAT）、Binary/Ternary 网络、L0 约束优化

局限：STE 是”近似”，引入 bias——前向值是离散的，但梯度信号假设了连续性，导致训练-推理不匹配（train-test mismatch）。DDSP 等工作正是针对这个问题提出确定性替代方案

Hard-Concrete 松弛（L0 约束的常用方法）本质上也是 STE 的一种变体

Bengio et al., 2013: “Estimating or Propagating Gradients Through Stochastic Neurons for Conditional Computation”

SERQ：用 STE 训练低秩量化适配层

DDSP（2603.08065）：提出绕过 STE 的确定性 differentiable mask，解决 train-test mismatch

HiAP: 在 Gumbel-Sigmoid 门控反向传播中使用 STE 计算梯度