LLaMA

分类: 网络架构

LLaMA

定义

Meta 发布的开源大语言模型系列,基于 Transformer decoder-only 架构,包含 LLaMA 1/2/3 等多个版本

核心要点

LLaMA 1 (2023): 7B-65B 参数,使用 RoPE 位置编码、SwiGLU 激活、Pre-Norm

LLaMA 2 (2023): 7B-70B 参数,扩展上下文至 4K,增加 RLHF 对齐训练

LLaMA 3 (2024): 8B-405B 参数,扩展词汇表至 128K,上下文 8K-128K

采用 RoPE 旋转位置编码、GQA(Grouped Query Attention)、SwiGLU FFN

已成为 LLM 压缩和推理效率研究的标准基准模型

代表工作

Compression Order: 在 LLaMA 2/3 上验证压缩顺序假说

SparseGPT: LLaMA 剪枝基线

GPTQ: LLaMA 量化基线

相关概念

ViT

RoPE

PTQ

SparseGPT