Minitron
分类: 剪枝与稀疏化
Minitron
定义
Minitron 是 NVIDIA 提出的大模型压缩方法论,采用”先剪枝再蒸馏”两阶段流程:首先通过混合结构化剪枝(depth + width)减小模型规模,再通过知识蒸馏恢复质量。
核心要点
两阶段流程:结构化剪枝 → 知识蒸馏
混合剪枝:同时支持 depth pruning(删除层)和 width pruning(削减维度),比单一维度更灵活
使用 NVIDIA Model Optimizer 做剪枝,NeMo Framework 做蒸馏
已在 Nemotron-4 15B→8B、Llama 3.1 8B→4B 等场景验证
典型恢复率:压缩 30-40% 参数后恢复原模型 90%+ 性能
代表工作
Muralidharan et al., 2024: “Compact Language Models via Pruning and Knowledge Distillation”
Bielik-Minitron:基于 Minitron 方法压缩波兰语 LLM