adaptive computation

分类: 高效推理与部署

Adaptive Computation

定义

Adaptive computation(自适应计算)是一类根据输入难度动态调整计算量的推理策略,简单样本用更少的计算,困难样本用更多的计算,从而在保持性能的同时提升平均推理效率。

核心要点

Early Exit:在中间层提前输出,不经过所有层(如 early exit

Token-level adaptive:不同 token 分配不同计算量(如 token pruning、MoE routing)

Layer skipping:动态跳过部分层的计算

核心挑战:如何准确判断”够了”——退出/跳过的决策机制

与静态剪枝互补:剪枝是永久移除,自适应计算是动态跳过

代表工作

Graves, 2016: “Adaptive Computation Time for Recurrent Neural Networks”

Slow-Fast Inference:句内稳定性驱动的自适应稀疏注意力

相关概念

early exit

MoE

Token Merging