CS224N / 学习笔记

#LLM #Llama #大语言模型 #scaling #open-source

The Llama 3 Herd of Models

作者: Meta AI 年份: 2024 会议: arXiv 分类: 网络架构

论文笔记：Llama3

一句话总结

Meta 发布的 Llama 3 系列开源大语言模型（8B/70B/405B），通过 15T+ token 的大规模预训练和精细的后训练流程，在多项基准上接近甚至匹敌闭源模型。

核心贡献

架构改进：基于标准 dense Transformer，采用 GQA（Grouped Query Attention）、RoPE 位置编码、SwiGLU 激活函数、128K 词表，支持 128K 上下文长度
大规模预训练：使用超过 15T token 的高质量多语言数据，405B 模型在 16K H100 GPU 上训练，数据质量管控流程（去重、过滤、混合比例调优）极其精细
后训练流程：包含 SFT → Rejection Sampling → DPO 的多轮迭代对齐，结合 tool use、代码生成、多语言等专项能力增强
开源生态：完整发布模型权重、训练细节和评估结果，推动开源 LLM 社区发展，成为最强开源基座模型之一

相关概念

大语言模型
GQA
RoPE
SFT
DPO
Scaling Law