DeepSeek

分类: 网络架构

DeepSeek

定义

深度求索(DeepSeek)公司开发的大语言模型系列,以 Multi-Head Latent Attention (MLA) 和 DeepSeekMoE 架构为核心创新,在推理效率和训练成本上大幅优化。

数学形式

MLA:ctKV=WDKVht,Kt=WUKctKV,Vt=WUVctKV\text{MLA}: c_t^{KV} = W^{DKV} h_t, \quad K_t = W^{UK} c_t^{KV}, \quad V_t = W^{UV} c_t^{KV}

(通过低秩压缩 KV cache,减少显存占用)

核心要点

MLA(Multi-Head Latent Attention):用低秩压缩替代标准 KV cache,推理时 KV cache 减少 93%

DeepSeekMoE:细粒度专家划分 + 共享专家隔离,提升 MoE 模型效率

DSA(DeepSeek Sparse Attention):DeepSeek-V3 使用的稀疏注意力机制

DeepSeek-V3:671B 总参数,37B 激活参数,训练成本约 557 万美元

代表工作

DeepSeek-V2 (2024): MLA + MoE 架构

DeepSeek-V3 (2024): 671B MoE,达到 SOTA 水平

相关概念

MoE

SnapKV