Deterministic Differentiable Structured Pruning for Large Language Models
作者: Weiyu Huang, Pengle Zhang, Xiaolu Zhang, Jun Zhou, Jun Zhu, Jianfei Chen 年份: 2026 会议: arXiv 分类: 剪枝与稀疏化
DDP: Deterministic Differentiable Structured Pruning for LLMs
一句话总结
用确定性 soft sigmoid 映射替代随机 hard-concrete 松弛实现 结构化剪枝,消除训练-测试不一致和表达力受限问题,仅优化 mask 参数即可在 30M token 内完成 LLM 结构化剪枝。
核心问题
结构化剪枝可视为学习每个组件的乘性门控 + 稀疏约束。传统 hard-concrete 松弛:
- 训练-测试不一致:训练时随机采样 mask,部署时必须离散化
- 表达力受限:mask 被限制在近二值 范围
关键公式
统一 Mask 框架
Multi-head attention ( heads):
MLP channels ( intermediate width):
约束优化
增广拉格朗日惩罚:
DDP 核心:确定性替代
前向传播用确定性 ReLU 门控:
mask 空间从近二值 扩展到 。
正则化用退火的确定性 soft sigmoid:
固定参数 。
退火调度( 时逼近精确 ):
默认 ,。
二值化正则器
在端点 最小化,推动模糊组件做出明确选择。
完整训练目标
其中 ,。
关键图表
Figure 1: DDP 方法概览

Figure 2: 确定性替代映射

退火 使 soft sigmoid 逐步逼近阶跃函数,实现从连续到离散的渐进转换。
实验结果
Table 2: Dense LLM 剪枝
LLaMA-7B 20% sparsity:
| 方法 | PPL↓ | Mean Acc↑ |
|---|---|---|
| Dense | 12.62 | 65.96% |
| LoRAPrune | 15.92 | 61.62% |
| SlimLLM | 15.55 | 62.41% |
| DDP | 15.20 | 64.13% |
LLaMA-13B 50% sparsity:
| 方法 | PPL↓ | Mean Acc↑ |
|---|---|---|
| SlimLLM | 25.64 | 54.75% |
| DDP | 20.32 | 62.14% (+7.39pp) |
Table 3: MoE 剪枝
DeepSeekMoE-16B 60% sparsity:
| 方法 | C4 PPL↓ | Acc↑ |
|---|---|---|
| Camera-P | 18.10 | 51.62% |
| DDP | 12.65 | 58.18% (+6.6pp) |
Table 7: 推理加速(vLLM)
| 模型 | Sparsity | Throughput | Speedup |
|---|---|---|---|
| LLaMA-7B (RTX 5090) | 0% | 10.88 req/s | 1.00× |
| LLaMA-7B (RTX 5090) | 20% | 14.75 req/s | 1.36× |
| LLaMA-7B (RTX 5090) | 50% | 23.98 req/s | 2.20× |
消融实验
| 变体 | LLaMA-7B PPL | Acc |
|---|---|---|
| Hard-Concrete (HC) | 16.52 | 59.95% |
| Det. HC(去随机性) | 16.30 | 61.74% |
| +Expanded Mask | 15.36 | 63.92% |
| DDP (full) | 15.20 | 64.13% |
三个组件(确定性 + 扩展mask + 二值化)加性贡献。
Token 预算:zero-shot accuracy ~10M token 饱和;PPL 持续改善到 60M token。
DDP vs Hard-Concrete 对比
| 方面 | Hard-Concrete | DDP |
|---|---|---|
| 采样 | 随机 | 确定性 |
| 训练-测试一致性 | 不一致 | 一致 |
| Mask 范围 | 近二值 | via ReLU |
| 收敛 | 慢(采样噪声) | 快 |
| 理论保证 | 无精确预算保证 | KKT 收敛 + 精确预算 |
对我们工作的启示
- Mask 机制用于结构决策:DDP 的 mask 优化思路可迁移到模型增长——增长后判断哪些新结构该保留/删除
- 确定性 > 随机性:训练-测试一致性对部署很重要
- 轻量优化:仅优化 mask(数千万参数) vs 完整权重训练 → 30M token 够用
- MoE 适配:对 expert-level 剪枝的扩展方式可参考
- 退火调度: 退火实现连续→离散渐进转换的技巧有通用性
局限性
20% sparsity 结果优秀,但 50%+ 时精度下降较多
训练数据质量敏感(C4/LaMini 比 FineWeb-Edu 差 1-2pp)
未报告训练不稳定性问题
高稀疏度下的 speedup 需要更多硬件验证