DeepSeek
分类: 网络架构
DeepSeek
定义
深度求索(DeepSeek)公司开发的大语言模型系列,以 Multi-Head Latent Attention (MLA) 和 DeepSeekMoE 架构为核心创新,在推理效率和训练成本上大幅优化。
数学形式
(通过低秩压缩 KV cache,减少显存占用)
核心要点
MLA(Multi-Head Latent Attention):用低秩压缩替代标准 KV cache,推理时 KV cache 减少 93%
DeepSeekMoE:细粒度专家划分 + 共享专家隔离,提升 MoE 模型效率
DSA(DeepSeek Sparse Attention):DeepSeek-V3 使用的稀疏注意力机制
DeepSeek-V3:671B 总参数,37B 激活参数,训练成本约 557 万美元
代表工作
DeepSeek-V2 (2024): MLA + MoE 架构
DeepSeek-V3 (2024): 671B MoE,达到 SOTA 水平