MoE

分类: 网络架构

MoE

定义

  • 一种稀疏激活的网络架构,每层包含多个并行的专家网络(Expert),由路由器(Router)动态选择少数专家处理每个 token,从而在增加模型容量的同时控制计算量

数学形式

  • y=i=1Ngi(x)Ei(x),where g(x)=TopK(Softmax(xWg))y = \sum_{i=1}^{N} g_i(\mathbf{x}) \cdot E_i(\mathbf{x}), \quad \text{where } g(\mathbf{x}) = \text{TopK}(\text{Softmax}(\mathbf{x} W_g))

核心要点

  • Router 动态选择 Top-K 个专家(通常 K=1 或 2)
  • 总参数量大但每个 token 激活参数少
  • DeepSeek-V2/V3、Mixtral 等大模型广泛使用
  • 路由策略(load balancing, expert capacity)是核心挑战

代表工作

  • (待补充)

相关概念