Minitron

分类: 剪枝与稀疏化

定义

Minitron 是 NVIDIA 提出的大模型压缩方法论，采用”先剪枝再蒸馏”两阶段流程：首先通过混合结构化剪枝（depth + width）减小模型规模，再通过知识蒸馏恢复质量。

两阶段流程：结构化剪枝 → 知识蒸馏

混合剪枝：同时支持 depth pruning（删除层）和 width pruning（削减维度），比单一维度更灵活

使用 NVIDIA Model Optimizer 做剪枝，NeMo Framework 做蒸馏

已在 Nemotron-4 15B→8B、Llama 3.1 8B→4B 等场景验证

典型恢复率：压缩 30-40% 参数后恢复原模型 90%+ 性能

Muralidharan et al., 2024: “Compact Language Models via Pruning and Knowledge Distillation”

Bielik-Minitron：基于 Minitron 方法压缩波兰语 LLM