STE

分类: 剪枝与稀疏化

STE

定义

Straight-Through Estimator:在反向传播中,对不可微的离散操作(如 round、sign、threshold)用”直通”近似梯度的技巧——前向用离散值,反向直接传递上游梯度(等同于把离散函数的梯度近似为 1)。

数学形式

前向传播:b=round(x)b = \text{round}(x)(或 sign(x)\text{sign}(x)

反向传播(STE 近似): LxLb\frac{\partial \mathcal{L}}{\partial x} \approx \frac{\partial \mathcal{L}}{\partial b}

dbdx1\frac{db}{dx} \approx 1,绕过了 round 函数梯度为 0 的问题。

核心要点

最初由 Bengio et al. (2013) 在二值网络中系统化提出,但思路更早(Hinton 的讲义中就有类似方法)

广泛用于量化感知训练(QAT)、Binary/Ternary 网络、L0 约束优化

局限:STE 是”近似”,引入 bias——前向值是离散的,但梯度信号假设了连续性,导致训练-推理不匹配(train-test mismatch)。DDSP 等工作正是针对这个问题提出确定性替代方案

Hard-Concrete 松弛(L0 约束的常用方法)本质上也是 STE 的一种变体

代表工作

Bengio et al., 2013: “Estimating or Propagating Gradients Through Stochastic Neurons for Conditional Computation”

SERQ:用 STE 训练低秩量化适配层

DDSP(2603.08065):提出绕过 STE 的确定性 differentiable mask,解决 train-test mismatch

HiAP: 在 Gumbel-Sigmoid 门控反向传播中使用 STE 计算梯度

相关概念

Taylor pruning — 结构化剪枝中另一种重要性估计方法,不依赖 STE

PTQ — 训练后量化,不需要 STE(STE 主要用于 QAT)

function-preserving — 增长场景中如何初始化新参数,避免 STE 类问题