Mistral

分类: 网络架构

Mistral

定义

Mistral AI 提出的开源大语言模型系列,以 Grouped Query Attention (GQA) 和 Sliding Window Attention (SWA) 为核心架构创新,在推理效率和性能上超越同参数量的 LLaMA 系列。

数学形式

SWA:Attention(Q,K,V) 仅在窗口大小 w 内计算,O(nw) 复杂度\text{SWA}: \text{Attention}(Q, K, V) \text{ 仅在窗口大小 } w \text{ 内计算,} O(n \cdot w) \text{ 复杂度}

核心要点

Grouped Query Attention (GQA):多个 query head 共享同一组 key/value head,减少 KV cache 显存占用

Sliding Window Attention (SWA):限制注意力窗口大小,控制计算量

Mistral 7B:首个版本,7B 参数但性能超越 LLaMA 2 13B

Mistral-NeMo / Mistral-Large 等后续版本持续扩展

代表工作

Mistral 7B (Jiang et al., 2023): 首版开源 7B 模型

Mixtral 8x7B: 基于 MoE 扩展的 Mistral 变体

Bielik-Minitron-7B: 基于 Mistral 架构进行剪枝压缩

相关概念

MoE

Minitron

Softmax