DeepSeek

分类: 网络架构

定义

深度求索（DeepSeek）公司开发的大语言模型系列，以 Multi-Head Latent Attention (MLA) 和 DeepSeekMoE 架构为核心创新，在推理效率和训练成本上大幅优化。

$\text{MLA}: c_t^{KV} = W^{DKV} h_t, \quad K_t = W^{UK} c_t^{KV}, \quad V_t = W^{UV} c_t^{KV}$

（通过低秩压缩 KV cache，减少显存占用）

MLA（Multi-Head Latent Attention）：用低秩压缩替代标准 KV cache，推理时 KV cache 减少 93%

DeepSeekMoE：细粒度专家划分 + 共享专家隔离，提升 MoE 模型效率

DSA（DeepSeek Sparse Attention）：DeepSeek-V3 使用的稀疏注意力机制

DeepSeek-V3：671B 总参数，37B 激活参数，训练成本约 557 万美元

DeepSeek-V2 (2024): MLA + MoE 架构

DeepSeek-V3 (2024): 671B MoE，达到 SOTA 水平