Mistral
分类: 网络架构
Mistral
定义
Mistral AI 提出的开源大语言模型系列,以 Grouped Query Attention (GQA) 和 Sliding Window Attention (SWA) 为核心架构创新,在推理效率和性能上超越同参数量的 LLaMA 系列。
数学形式
核心要点
Grouped Query Attention (GQA):多个 query head 共享同一组 key/value head,减少 KV cache 显存占用
Sliding Window Attention (SWA):限制注意力窗口大小,控制计算量
Mistral 7B:首个版本,7B 参数但性能超越 LLaMA 2 13B
Mistral-NeMo / Mistral-Large 等后续版本持续扩展
代表工作
Mistral 7B (Jiang et al., 2023): 首版开源 7B 模型
Mixtral 8x7B: 基于 MoE 扩展的 Mistral 变体
Bielik-Minitron-7B: 基于 Mistral 架构进行剪枝压缩