ACT
分类: 高效推理与部署
ACT (Adaptive Computation Time)
定义
由 Graves (2016) 提出的机制,允许 RNN 每个时间步动态决定计算步数(“思考时间”),通过学习 halting probability 实现
数学形式
核心要点
每步输出一个 halting probability ,累积到阈值后停止
允许模型对”简单”输入分配更少计算,“困难”输入分配更多
引入 ponder cost 正则项防止过度计算
是 early exit、Mixture-of-Depths 等后续工作的理论基础
代表工作
ACT: Graves (2016), 原始论文
Universal Transformers (Dehghani et al., 2019): 将 ACT 应用于共享权重 Transformer
TIDE: post-training 场景下的 per-token depth 决策
相关概念
Mixture-of-Depths