Mistral

分类: 网络架构

定义

Mistral AI 提出的开源大语言模型系列，以 Grouped Query Attention (GQA) 和 Sliding Window Attention (SWA) 为核心架构创新，在推理效率和性能上超越同参数量的 LLaMA 系列。

$\text{SWA}: \text{Attention}(Q, K, V) \text{ 仅在窗口大小 } w \text{ 内计算，} O(n \cdot w) \text{ 复杂度}$

Grouped Query Attention (GQA)：多个 query head 共享同一组 key/value head，减少 KV cache 显存占用

Sliding Window Attention (SWA)：限制注意力窗口大小，控制计算量

Mistral 7B：首个版本，7B 参数但性能超越 LLaMA 2 13B

Mistral-NeMo / Mistral-Large 等后续版本持续扩展

Mistral 7B (Jiang et al., 2023): 首版开源 7B 模型

Mixtral 8x7B: 基于 MoE 扩展的 Mistral 变体

Bielik-Minitron-7B: 基于 Mistral 架构进行剪枝压缩