Mistral-7B
分类: 网络架构
Mistral-7B
定义
Mistral AI 发布的 7B 参数开源语言模型,采用 Grouped-Query Attention 和 Sliding Window Attention
核心要点
32 层 Transformer decoder,hidden dim 4096
使用 Grouped-Query Attention (GQA) 提升推理效率
Sliding Window Attention 支持长序列处理
Instruct 版本经过指令微调,广泛用于 benchmark 评估
E5-Mistral 变体专门用于文本检索任务
代表工作
Pruning-on-Representations: 作为主要实验模型,分析剪枝在不同任务上的差异表现
相关概念
Grouped-Query Attention
Qwen