MoD
分类: 高效推理与部署
MoD (Mixture-of-Depths)
定义
Raposo et al. (2024) 提出的方法,在训练阶段让 token 动态路由以跳过某些 Transformer 层,实现按 token 的计算量分配
核心要点
每层设置 capacity,仅 top-k token 经过完整计算,其余跳过(residual passthrough)
训练时学习 per-layer routing 策略
与 MoE 类似,但在深度维度上做条件计算(MoE 在宽度维度)
需要在训练阶段引入,无法 post-hoc 使用
代表工作
MoD: 原始论文 (arXiv:2404.02258)
TIDE: 推理时 post-hoc 的 per-token depth 决策