Minitron

分类: 剪枝与稀疏化

Minitron

定义

Minitron 是 NVIDIA 提出的大模型压缩方法论,采用”先剪枝再蒸馏”两阶段流程:首先通过混合结构化剪枝(depth + width)减小模型规模,再通过知识蒸馏恢复质量。

核心要点

两阶段流程:结构化剪枝 → 知识蒸馏

混合剪枝:同时支持 depth pruning(删除层)和 width pruning(削减维度),比单一维度更灵活

使用 NVIDIA Model Optimizer 做剪枝,NeMo Framework 做蒸馏

已在 Nemotron-4 15B→8B、Llama 3.1 8B→4B 等场景验证

典型恢复率:压缩 30-40% 参数后恢复原模型 90%+ 性能

代表工作

Muralidharan et al., 2024: “Compact Language Models via Pruning and Knowledge Distillation”

Bielik-Minitron:基于 Minitron 方法压缩波兰语 LLM

相关概念

结构化剪枝

知识蒸馏

depth pruning

width pruning

LLM-Pruner