ACT

分类: 高效推理与部署

ACT (Adaptive Computation Time)

定义

由 Graves (2016) 提出的机制,允许 RNN 每个时间步动态决定计算步数(“思考时间”),通过学习 halting probability 实现

数学形式

ptn=σ(Whhtn+bh)p_t^n = \sigma(W_h h_t^n + b_h) N(t)=min{n:k=1nptk1ϵ}N(t) = \min \{ n : \sum_{k=1}^{n} p_t^k \geq 1 - \epsilon \}

核心要点

每步输出一个 halting probability ptnp_t^n,累积到阈值后停止

允许模型对”简单”输入分配更少计算,“困难”输入分配更多

引入 ponder cost 正则项防止过度计算

early exit、Mixture-of-Depths 等后续工作的理论基础

代表工作

ACT: Graves (2016), 原始论文

Universal Transformers (Dehghani et al., 2019): 将 ACT 应用于共享权重 Transformer

TIDE: post-training 场景下的 per-token depth 决策

相关概念

early exit

adaptive computation

Mixture-of-Depths