ACT

分类: 高效推理与部署

ACT (Adaptive Computation Time)

由 Graves (2016) 提出的机制，允许 RNN 每个时间步动态决定计算步数（“思考时间”），通过学习 halting probability 实现

p_t^n = \sigma(W_h h_t^n + b_h)

N(t) = \min \{ n : \sum_{k=1}^{n} p_t^k \geq 1 - \epsilon \}

每步输出一个 halting probability $p_t^n$ ，累积到阈值后停止

允许模型对”简单”输入分配更少计算，“困难”输入分配更多

引入 ponder cost 正则项防止过度计算

是 early exit、Mixture-of-Depths 等后续工作的理论基础

ACT: Graves (2016), 原始论文

Universal Transformers (Dehghani et al., 2019): 将 ACT 应用于共享权重 Transformer

TIDE: post-training 场景下的 per-token depth 决策