MoE
分类: 网络架构
MoE
定义
- 一种稀疏激活的网络架构,每层包含多个并行的专家网络(Expert),由路由器(Router)动态选择少数专家处理每个 token,从而在增加模型容量的同时控制计算量
数学形式
核心要点
- Router 动态选择 Top-K 个专家(通常 K=1 或 2)
- 总参数量大但每个 token 激活参数少
- DeepSeek-V2/V3、Mixtral 等大模型广泛使用
- 路由策略(load balancing, expert capacity)是核心挑战
代表工作
- (待补充)