MoD

分类: 高效推理与部署

MoD (Mixture-of-Depths)

定义

Raposo et al. (2024) 提出的方法,在训练阶段让 token 动态路由以跳过某些 Transformer 层,实现按 token 的计算量分配

核心要点

每层设置 capacity,仅 top-k token 经过完整计算,其余跳过(residual passthrough)

训练时学习 per-layer routing 策略

MoE 类似,但在深度维度上做条件计算(MoE 在宽度维度)

需要在训练阶段引入,无法 post-hoc 使用

代表工作

MoD: 原始论文 (arXiv:2404.02258)

TIDE: 推理时 post-hoc 的 per-token depth 决策

相关概念

MoE

early exit

adaptive computation

ACT