Bielik-Minitron-7B: Compressing Large Language Models via Structured Pruning and Knowledge Distillation for the Polish Language

作者: Remigiusz Kinas, Paweł Kiszczak, Sergio P. Perez, Krzysztof Ociepa, Łukasz Flis, Krzysztof Wróbel, Adrian Gwoździej 年份: 2026 会议: arXiv 分类: 剪枝与稀疏化

论文笔记:Bielik-Minitron-7B

元信息

项目内容
机构Bielik.AI, NVIDIA, Ingenix.ai, Vstorm, Azurro.pl, ACK Cyfronet AGH, Jagiellonian University
日期March 2026
项目主页
对比基线Bielik-11B-v3.0
链接arXiv / Code: —

一句话总结

通过两阶段结构化混合剪枝+知识蒸馏将 Bielik-11B 压缩至 7.35B,保留 90.1% 性能同时实现 49.6% 推理加速,面向波兰语 LLM 高效部署。

核心贡献

混合剪枝策略(Hybrid Pruning): 同时剪枝 depth(50→40 层)和 FFN intermediate dimension(14336→11264),参数减少 33.4%

无梯度激活分析: 仅用前向传播激活估计各结构重要性,无需反向传播,大幅降低剪枝计算开销

完整多阶段对齐流水线: 蒸馏后依次经过 SFT → DPO-P → GRPO,在波兰语/英语任务上恢复并超越多个更大模型

问题背景

要解决的问题

大参数量 LLM(11B+)在消费级 GPU(RTX 3090/4090, 16-24GB VRAM)上无法直接部署,尤其是小语种(波兰语)领域缺乏高效模型

现有方法的局限

SparseGPT 等非结构化剪枝需要专用稀疏硬件才能实际加速

单一维度剪枝(仅 depth 或仅 width)在压缩率与精度之间难以平衡

针对英语优化的压缩模型对波兰语等低资源语言效果衰减明显

本文的动机

Minitron 方法在 Nemotron-4 15B→4B 压缩上验证了多轴结构化剪枝的可行性;本文将该方法适配到波兰语 LLM,并结合 NVIDIA 生产级基础设施实现端到端压缩部署

方法详解

整体框架

两阶段压缩:

Stage I: 结构化混合剪枝 — 基于激活的重要性分析 → 多配置架构搜索 → 选定最优剪枝方案

Stage II: 知识蒸馏 → SFT → DPO-P → GRPO 对齐流水线

Stage I:结构化剪枝

重要性估计(无梯度)

对校准数据集执行前向传播,收集各维度激活统计:

Depth Pruning: 使用Block Influence(BI)度量层重要性,BI 低的 Transformer block 被移除

Width Pruning: 基于激活幅值估计 hidden dimension 和 FFN intermediate dimension 的逐神经元重要性

架构搜索

共设计 10 个实验配置(EXP_001 ~ EXP_010),系统探索不同 depth / width 组合:

实验HiddenIntermediateLayers参数量 (B)
Original4096143365011.04
EXP_00130728.28
EXP_00292167.90
EXP_003367.99
EXP_00412288407.85
EXP_005102408.52
EXP_00611264448.07
EXP_007364812800447.92
EXP_008327.11
EXP_00981927.26
EXP_010409611264407.35

EXP_010 被选为”Golden Ratio”:保持原始 hidden dimension(dmodel=4096d_{model}=4096),仅压缩 depth 和 FFN intermediate。EXP_009(激进 width 压缩)导致训练不稳定;EXP_006(保守压缩)性能恢复不够充分。

保留结构:Multi-Head Attention topology、RoPE 位置编码、hidden dimension

Stage II:知识蒸馏 + 对齐

Teacher: Bielik-11B-v3.0(参数冻结)

Student: 以 EXP_010 剪枝后存活权重初始化

蒸馏目标:仅用 logit-level 前向 KL 散度,无 ground-truth 标签监督。

蒸馏完成后依次执行:

  1. SFT: 3 epochs,~20M 波兰语/英语指令对,最大序列长度 32,768
  2. DPO-P: 3 epochs,114K 偏好标注样本
  3. GRPO: 143K 任务样本,可验证奖励函数(verifiable reward)

关键公式

公式1: Block Influence(BI)度量

BIi=11Nn=1Ncos_sim ⁣(Hi(n),Hi+1(n))\text{BI}_i = 1 - \frac{1}{N}\sum_{n=1}^{N}\text{cos\_sim}\!\left(\mathbf{H}_i^{(n)},\, \mathbf{H}_{i+1}^{(n)}\right)

含义: 衡量第 ii 个 Transformer block 对隐状态的实际改变量;BI 接近 0 表示该层对特征几乎无贡献,可安全移除

符号说明:

  • Hi(n)\mathbf{H}_i^{(n)}: 第 nn 个样本在第 ii 层的隐状态
  • NN: 校准样本数

公式2: Hidden Dimension 重要性

Ijhidden==1L(1Nn=1Na,j(n))2I_j^{\text{hidden}} = \sum_{\ell=1}^{L}\left(\frac{1}{N}\sum_{n=1}^{N}\left|a_{\ell,j}^{(n)}\right|\right)^2

含义: 对所有层、所有样本的第 jj 个 hidden 神经元激活幅值求均值后平方求和,值越大表示该维度越重要

符号说明:

  • a,j(n)a_{\ell,j}^{(n)}: 第 \ell 层第 nn 个样本第 jj 个隐神经元的激活值
  • LL: 总层数

公式3: FFN Intermediate 重要性

Ijffn==1L(1Nn=1Nh,j(n))2I_j^{\text{ffn}} = \sum_{\ell=1}^{L}\left(\frac{1}{N}\sum_{n=1}^{N}\left|h_{\ell,j}^{(n)}\right|\right)^2

含义: 与 hidden 重要性类似,但针对 FFN 中间层神经元 h,jh_{\ell,j}

公式4: Logit-KL 蒸馏损失

L=KL ⁣(σ(zt/T)σ(zs/T))\mathcal{L} = \text{KL}\!\left(\sigma(\mathbf{z}_t/T) \,\|\, \sigma(\mathbf{z}_s/T)\right)

含义: 以温度缩放后的 teacher logit 分布为目标,最小化 student 与 teacher 输出分布的 KL 散度;无需 ground-truth 标签,仅需校准数据前向传播

符号说明:

  • zt\mathbf{z}_t: teacher logits
  • zs\mathbf{z}_s: student logits
  • TT: 温度超参数,用于平滑概率分布
  • σ()\sigma(\cdot): softmax 函数

公式5(参考背景): Wanda 重要性评分

Sijwanda=wijxj2S_{ij}^{\text{wanda}} = |w_{ij}| \cdot \|\mathbf{x}_j\|_2

含义: 将权重幅值与对应输入激活的 L2 范数相乘,比纯幅值剪枝更准确地识别重要权重

符号说明:

  • wijw_{ij}: 第 ii 行第 jj 列权重
  • xj\mathbf{x}_j: 对应输入激活

公式6(参考背景): SparseGPT 权重更新

δrow=wp[H1]ppH:,p1\delta_{\text{row}} = -\frac{w_p}{\left[\mathbf{H}^{-1}\right]_{pp}} \cdot \mathbf{H}^{-1}_{:,p}

含义: 剪掉第 pp 个权重后,用 Hessian 逆矩阵对同行其他权重做最优补偿更新

符号说明:

  • wpw_p: 被剪掉的权重值
  • H1\mathbf{H}^{-1}: 输出误差关于权重的 Hessian 逆矩阵

公式7(参考背景): LLM-Pruner 群重要性

Ig=wgwLwI_g = \left|\sum_{w \in g} w \cdot \frac{\partial\mathcal{L}}{\partial w}\right|

含义: 一个结构组 gg(如一个 attention head 或 MLP 通道)的重要性为组内所有权重梯度幅值之和

关键图表

Figure 1: 蒸馏收敛曲线

说明: 展示 EXP_006、EXP_009、EXP_010 三个候选架构在蒸馏阶段的 loss 曲线。所有配置均从约 1.12 单调下降至约 0.89(共 8,000 步),证明训练稳定性;EXP_009(激进 width 压缩)收敛更慢,最终选择 EXP_010。

图片暂无在线外链,来自论文 Section 5.2。

Table 1: 剪枝方法横向对比

方法粒度重要性度量需要重训练单次剪枝硬件友好
Magnitude非结构化幅值
SparseGPT非结构化Hessian
Wanda非结构化幅值×激活
ShortGPT结构化(层)Block Influence
LLM-Pruner结构化梯度是(LoRA)
Sheared LLaMA结构化可学习掩码
Minitron结构化(多轴)激活是(KD)

Table 2: 候选剪枝配置(见方法部分)

(已在方法详解中完整呈现)

Table 3: 关键候选方案对比

实验参数量压缩率修改状态
Original11.04B基线基线
EXP_0068.07B26.9%Layers 44, Intermediate 11264次优(压缩不足)
EXP_0097.26B34.2%Intermediate 8192不稳定
EXP_0107.35B33.4%Layers 40, Intermediate 11264选定

Table 4: 整体性能恢复分析

任务类别恢复率指标
综合平均90.1%平均 Benchmark 准确率
Open PL LLM Leaderboard94.7%平均分
Polish EQ-Bench90.0%平均分
CPTUB90.6%平均分
Polish Medical Leaderboard88.3%准确率
INCLUDE-base-4488.6%区域知识
Belebele94.0%阅读理解
FLORES 机器翻译80.8%BLEU
EuroEval91.4%平均分
BFCL92.3%平均分

Table 5: Open PL LLM Leaderboard(5-shot 波兰语 NLP)

模型参数量平均分
Bielik-11B-v3.0-Instruct11.2B65.93
Bielik-Minitron-7B-v3.0-Instruct7.35B62.46
Qwen3-14B14B62.24
gemma-3-12b-it12B62.20
Qwen2.5-7B7B54.93
Mistral-7B-v0.37B47.74

Table 6: Polish EQ-Bench(情感推理)

模型参数量分数
Bielik-11B-v3.0-Instruct11.2B71.20
Bielik-Minitron-7B-v3.0-Instruct7.35B64.09
glm-4-9b-chat9.0B61.79
Mistral-Nemo-Instruct-240712.2B61.76

Table 7: CPTUB(复杂波兰语文本理解)

类别Minitron-7BTeacher-11B
综合平均3.383.73
语言理解3.833.91
情感3.72
蕴含/推断3.59
phi-4 (15B)3.30
Qwen2.5-7B3.07

Table 8: Polish Medical Leaderboard(LEK/PES 医学考试)

模型参数量准确率
Bielik-11B-v3.0-Instruct11.2B50.21%
Bielik-Minitron-7B-v3.0-Instruct7.35B44.36%
Mistral-Small-Instruct-240922.2B43.60%
Qwen2.5-7B7B42.69%

Table 9: INCLUDE-base-44(多语言区域知识)

模型平均分波兰语分
Bielik-11B-v3.0-Instruct69.0
Bielik-Minitron-7B-v3.0-Instruct57.459.3
Llama-3.1-8B55.3
EuroLLM-9B55.1

Table 10: Belebele(28 语言阅读理解)

模型参数量分数
Bielik-11B-v3.0-Instruct11.2B82.98
Bielik-Minitron-7B-v3.0-Instruct7.35B78.03
Mistral-Nemo-Instruct-240712B74.14
EuroLLM-9B9B69.05

Table 11: FLORES 机器翻译(20 语言对 BLEU)

模型参数量平均 BLEU→波兰语波兰语→
EuroLLM-9B-Instruct9B20.6119.2821.95
Bielik-11B-v3.0-Instruct11B19.2218.5419.91
phi-415B15.5814.5516.61
Bielik-Minitron-7B-v3.0-Instruct7B15.5315.7415.32
Qwen3-14B14B15.3714.1816.56

Table 12: EuroEval 细粒度恢复分析

类别指标Teacher (11B)Student (7.35B)Δ恢复率
常识推理MCC48.7736.44-12.3374.71%
常识推理Accuracy69.8562.70-7.1589.75%
欧洲价值观Score11.5210.28-1.2489.24%
知识MCC49.7538.39-11.3577.18%
知识Accuracy62.3053.81-8.4986.37%
语言可接受性MCC45.1039.83-5.2788.32%
语言可接受性Macro F169.3565.96-3.3995.11%
命名实体识别micro F152.8353.52+0.70101.32%
情感分类Macro F172.5471.17-1.3798.11%
摘要生成BERTscore64.8464.78-0.0699.91%
综合平均91.38%

Table 13: 量化性能(Open PL LLM Leaderboard)

模型参数量平均准确率
Bielik-11B-v3.0-Instruct11.2B65.93%
Bielik-Minitron-7B-v3.0-Instruct (bf16)7.35B62.46%
Q6_K (6-bit GGUF)7.35B62.29%
Q8_0 (8-bit GGUF)7.35B62.06%
Q4_K_M (4-bit GGUF)7.35B61.89%
FP8 (weight-activation)7.35B61.53%
NVFP4 (weight-activation)7.35B60.14%

关键发现: Q4_K_M(4-bit)仅下降 0.91%,极适合消费级 GPU 部署;NVFP4 下降 3.71% 是最大损耗

Table 14: 各训练阶段性能演化

阶段Open LLM ENOpen LLM PL
剪枝 & 蒸馏60.0450.67
SFT66.3062.26
DPO-P66.5462.50
GRPO66.6062.46

关键发现: SFT 贡献最大增益(波兰语 +11.59 pp),DPO-P 和 GRPO 提供增量改进

Table 15: BFCL 函数调用能力

模型参数量Non-Live Multi ASTNon-Live Parallel ASTNon-Live Parallel Multi ASTLive Simple AST
Bielik-Minitron-7B7.3B94.50%92.00%85.00%71.32%
Bielik-11B-v3.0-Instruct (FC)11.0B96.00%88.00%82.00%79.07%
Gemma-3-12b-it12.0B95.00%90.00%73.00%84.88%
Open-Mistral-Nemo-240712.2B93.50%85.50%85.00%77.13%

Table 16: 推理性能基准(NVIDIA RTX PRO 6000 Max-Q, bf16, 单流)

模型吞吐量 (tok/s) ↑中位 TTFT (ms) ↓中位 TPOT (ms) ↓
Bielik-11B-v3.0 (bf16)54.4224.6418.28
Bielik-Minitron-7B-v3.0 (bf16)81.4127.2912.32

吞吐量提升: 49.6%(54.42 → 81.41 tok/s)

TPOT 改善: 32.6%(18.28 → 12.32 ms)

TTFT 略增: +2.65 ms(可接受的小代价)

实验

数据集

数据集规模特点用途
Bielik Dataset8.0M 波兰语/英语样本双语蒸馏校准
指令数据集~20M 对波兰语/英语指令SFT
偏好数据集114K 样本偏好标注DPO-P
GRPO 数据集143K 样本可验证奖励GRPO

实现细节

Backbone: Bielik-11B-v3.0(基于 Mistral 架构,50 层 Transformer)

优化器: AdamW + Cosine Annealing(LR: 1.5×10⁻⁴ → 1.5×10⁻⁵)

蒸馏时长: 每个候选 48-72 小时;全搜索约 3 周

硬件: 2 × H200 节点(共 16 GPU,DGX Cloud Lepton),每 GPU 141GB HBM3e,4.8 TB/s 带宽

GPU 利用率: 90%

框架: NVIDIA NeMo v24.09 + NVIDIA Model Optimizer

可视化结果

NER(命名实体识别)和情感分类任务上,7B student 超过或基本追平 11B teacher,说明蒸馏+对齐对这类任务尤其有效

机器翻译(FLORES)恢复率最低(80.8%),是主要短板

批判性思考

优点

多轴混合剪枝比单一维度剪枝更灵活,通过系统性架构搜索找到”最佳点”而非经验猜测

无梯度激活分析使剪枝阶段无需完整反向传播,工程实现简单高效

量化友好: Q4_K_M 仅损失 0.91%,实际部署门槛极低(消费级 GPU 可运行)

波兰语特化: 在多个波兰语 benchmark 上超越参数量更大的通用模型(如 Mistral-Small 22B)

局限性

机器翻译能力明显下降(FLORES BLEU 恢复率仅 80.8%),深度减少可能损害跨语言序列生成的长程依赖

常识推理 MCC 恢复率仅 74.71%,说明结构化剪枝对需要多步推理的任务损伤更大

搜索成本高: 10 个候选方案各需 48-72 小时,总计约 3 周 H200 集群时间,对资源有限的团队难以复现

依赖 NVIDIA 生态: 整个流程深度绑定 NeMo / Model Optimizer,可迁移性有限

潜在改进方向

引入 layer-wise 自适应剪枝率(不同层使用不同压缩力度),可能进一步降低常识推理的性能损失

机器翻译短板可通过专项 SFT 数据或翻译专项奖励(GRPO)改善

探索 width + depth 协同搜索的自动化 NAS 方法,减少人工指定候选方案的工程成本

可复现性评估

  • 代码开源(未提供)
  • 预训练模型(论文未明确提及公开权重)
  • 训练细节完整(优化器、LR、数据量均有说明)
  • 数据集可获取(部分 benchmark 公开)

关联笔记

基于

Minitron: 核心压缩方法来源,Nemotron-4 15B→4B 的经验

ShortGPT: Block Influence depth pruning 度量

LLM-Pruner: 结构化剪枝参考方法

对比

SparseGPT: 非结构化剪枝基线,硬件不友好

Wanda: 非结构化剪枝,幅值×激活评分

方法相关

结构化剪枝: 核心技术路线

知识蒸馏: 蒸馏恢复阶段

Block Influence: depth pruning 的重要性度量

depth pruning: 层级剪枝

width pruning: 神经元/通道级剪枝

硬件/数据相关

H200 GPU: 蒸馏所用硬件,HBM3e 内存容量是关键

速查卡片

Bielik-Minitron-7B

  • 核心: 两阶段混合剪枝(50层→40层 + FFN 14336→11264)+ logit KD,参数减少 33.4%
  • 方法: 无梯度激活重要性分析 → 系统架构搜索 → KD + SFT + DPO-P + GRPO
  • 结果: 保留 90.1% 性能,推理吞吐提升 49.6%,Q4_K_M 量化损失 <1%
  • 代码: 未开源

笔记创建时间: 2026-03-15