Deterministic Differentiable Structured Pruning for Large Language Models

作者: Weiyu Huang, Pengle Zhang, Xiaolu Zhang, Jun Zhou, Jun Zhu, Jianfei Chen 年份: 2026 会议: arXiv 分类: 剪枝与稀疏化

DDP: Deterministic Differentiable Structured Pruning for LLMs

一句话总结

确定性 soft sigmoid 映射替代随机 hard-concrete 松弛实现 0\ell_0 结构化剪枝,消除训练-测试不一致和表达力受限问题,仅优化 mask 参数即可在 30M token 内完成 LLM 结构化剪枝。

核心问题

结构化剪枝可视为学习每个组件的乘性门控 mkm_k + 0\ell_0 稀疏约束。传统 hard-concrete 松弛:

  1. 训练-测试不一致:训练时随机采样 mask,部署时必须离散化
  2. 表达力受限:mask 被限制在近二值 [0,1][0,1] 范围

关键公式

统一 Mask 框架

y=k=1Kmkfk(X),mkRy = \sum_{k=1}^{K} m_k \cdot f_k(X), \quad m_k \in \mathbb{R}

Multi-head attention (K=HK=H heads):

fhattn(X)=Attn(XWQ(h),XWK(h),XWV(h))WO(h)f_h^{\text{attn}}(X) = \text{Attn}(XW_Q^{(h)}, XW_K^{(h)}, XW_V^{(h)}) \cdot W_O^{(h)}

MLP channels (K=CK=C intermediate width):

fjmlp(X)=(ϕ(Xuj)(Xgj))vjf_j^{\text{mlp}}(X) = (\phi(Xu_j) \odot (Xg_j)) \cdot v_j

0\ell_0 约束优化

minmSLce(θ,m),mˉ=1Km0=ρ\min_{m \in S} \mathcal{L}_{\text{ce}}(\theta, m), \quad \bar{m} = \frac{1}{K}\|m\|_0 = \rho

增广拉格朗日惩罚:

Lsparsity(m0)=λ1(mˉρ)+λ2(mˉρ)2\mathcal{L}_{\text{sparsity}}(\|m\|_0) = \lambda_1(\bar{m} - \rho) + \lambda_2(\bar{m} - \rho)^2

DDP 核心:确定性替代

前向传播用确定性 ReLU 门控:

m=ReLU(z)m = \text{ReLU}(z)

mask 空间从近二值 [0,1][0,1] 扩展到 [0,)[0, \infty)

正则化用退火的确定性 soft sigmoid:

v=σ((zμt)C0μt),s=Clamp(v(rl)+l,0,1)v = \sigma\left(\frac{(z - \mu_t) \cdot C_0}{\mu_t}\right), \quad s = \text{Clamp}(v(r - l) + l, 0, 1)

固定参数 l=0.1,r=1.1,C02.4l=-0.1, r=1.1, C_0 \approx 2.4

退火调度μt0\mu_t \to 0 时逼近精确 0\ell_0):

μt=μ0(μ0μT)t/T\mu_t = \mu_0 - (\mu_0 - \mu_T)\sqrt{t/T}

默认 μ0=0.5\mu_0 = 0.5μT0\mu_T \approx 0

二值化正则器

Lbin(s)=λ31Kksk(1sk)\mathcal{L}_{\text{bin}}(s) = \lambda_3 \cdot \frac{1}{K}\sum_k s_k(1 - s_k)

在端点 {0,1}\{0, 1\} 最小化,推动模糊组件做出明确选择。

完整训练目标

minzLce(θ,m)+Lsparsity(s)+Lbin(s)\min_z \mathcal{L}_{\text{ce}}(\theta, m) + \mathcal{L}_{\text{sparsity}}(s) + \mathcal{L}_{\text{bin}}(s)

其中 m=ReLU(z)m = \text{ReLU}(z)s=ϕ(z;μt)s = \phi(z; \mu_t)

关键图表

Figure 1: DDP 方法概览

Figure 2: 确定性替代映射

退火 μ\mu 使 soft sigmoid 逐步逼近阶跃函数,实现从连续到离散的渐进转换。

实验结果

Table 2: Dense LLM 剪枝

LLaMA-7B 20% sparsity:

方法PPL↓Mean Acc↑
Dense12.6265.96%
LoRAPrune15.9261.62%
SlimLLM15.5562.41%
DDP15.2064.13%

LLaMA-13B 50% sparsity:

方法PPL↓Mean Acc↑
SlimLLM25.6454.75%
DDP20.3262.14% (+7.39pp)

Table 3: MoE 剪枝

DeepSeekMoE-16B 60% sparsity:

方法C4 PPL↓Acc↑
Camera-P18.1051.62%
DDP12.6558.18% (+6.6pp)

Table 7: 推理加速(vLLM)

模型SparsityThroughputSpeedup
LLaMA-7B (RTX 5090)0%10.88 req/s1.00×
LLaMA-7B (RTX 5090)20%14.75 req/s1.36×
LLaMA-7B (RTX 5090)50%23.98 req/s2.20×

消融实验

变体LLaMA-7B PPLAcc
Hard-Concrete (HC)16.5259.95%
Det. HC(去随机性)16.3061.74%
+Expanded Mask15.3663.92%
DDP (full)15.2064.13%

三个组件(确定性 + 扩展mask + 二值化)加性贡献

Token 预算:zero-shot accuracy ~10M token 饱和;PPL 持续改善到 60M token。

DDP vs Hard-Concrete 对比

方面Hard-ConcreteDDP
采样随机 uU(0,1)u \sim U(0,1)确定性
训练-测试一致性不一致一致
Mask 范围[0,1][0,1] 近二值[0,)[0, \infty) via ReLU
收敛慢(采样噪声)
理论保证无精确预算保证KKT 收敛 + 精确预算

对我们工作的启示

  1. Mask 机制用于结构决策:DDP 的 mask 优化思路可迁移到模型增长——增长后判断哪些新结构该保留/删除
  2. 确定性 > 随机性:训练-测试一致性对部署很重要
  3. 轻量优化:仅优化 mask(数千万参数) vs 完整权重训练 → 30M token 够用
  4. MoE 适配:对 expert-level 剪枝的扩展方式可参考
  5. 退火调度μt\mu_t 退火实现连续→离散渐进转换的技巧有通用性

局限性

20% sparsity 结果优秀,但 50%+ 时精度下降较多

训练数据质量敏感(C4/LaMini 比 FineWeb-Edu 差 1-2pp)

未报告训练不稳定性问题

高稀疏度下的 speedup 需要更多硬件验证

相关概念

PTQ

LoRA

Taylor pruning