The Llama 3 Herd of Models
作者: Meta AI 年份: 2024 会议: arXiv 分类: 网络架构
论文笔记:Llama3
一句话总结
- Meta 发布的 Llama 3 系列开源大语言模型(8B/70B/405B),通过 15T+ token 的大规模预训练和精细的后训练流程,在多项基准上接近甚至匹敌闭源模型。
核心贡献
- 架构改进:基于标准 dense Transformer,采用 GQA(Grouped Query Attention)、RoPE 位置编码、SwiGLU 激活函数、128K 词表,支持 128K 上下文长度
- 大规模预训练:使用超过 15T token 的高质量多语言数据,405B 模型在 16K H100 GPU 上训练,数据质量管控流程(去重、过滤、混合比例调优)极其精细
- 后训练流程:包含 SFT → Rejection Sampling → DPO 的多轮迭代对齐,结合 tool use、代码生成、多语言等专项能力增强
- 开源生态:完整发布模型权重、训练细节和评估结果,推动开源 LLM 社区发展,成为最强开源基座模型之一