HiAP
alias:: HiAP title:: “HiAP: A Multi-Granular Stochastic Auto-Pruning Framework for Vision Transformers” method_name:: HiAP authors:: Andy Li, Aiden Durrant, Milan Markovic, Georgios Leontidis year:: 2025 venue:: arXiv tags:: structured pruning, vision transformer, Gumbel-Sigmoid, neural architecture search, knowledge distillation image_source:: online arxiv_html:: https://arxiv.org/html/2603.12222 created:: 2026-03-14
-
论文笔记:HiAP: A Multi-Granular Stochastic Auto-Pruning Framework for Vision Transformers
-
元信息
| 项目 | 内容 |
|---|---|
| 机构 | University of Aberdeen, University of East Anglia, UiT The Arctic University of Norway |
| 日期 | March 2025 |
| 项目主页 | - |
| 对比基线 | ViT-Slim, GOHSP, WDPruning, S2ViTE |
| 链接 | arXiv |
-
一句话总结
-
提出多粒度 Gumbel-Sigmoid 门控框架 HiAP,在单阶段端到端训练中自动发现 ViT 最优子网络,无需人工重要性启发式或预定义稀疏目标
-
核心贡献
-
多层级门控体系: 统一 macro-level(整个注意力头和 FFN 块)和 micro-level(头内维度和 FFN 神经元)的 结构化剪枝 到单一可微框架
-
预算感知端到端搜索: 网络自主发现并硬化最优子架构,无需手动重要性启发式、代理排序指标或昂贵的二次微调阶段
-
自动结构可行性保障: 通过可行性惩罚防止层坍塌,保证有效的前向传播路径
-
问题背景
-
要解决的问题
-
ViT 计算和内存开销大,难以部署到边缘设备
-
现有 结构化剪枝 方法通常只在单一粒度上操作,且依赖多阶段流水线和后处理阈值
-
现有方法的局限
-
单粒度局限: 仅剪枝 micro 结构(如头内维度)可降低 FLOPs,但保留了所有层和注意力头的数量,硬件仍需承担大量内存访问开销(HBM 访问);仅剪枝 macro 结构(整个头/块)虽能绕过内存传输,但容易导致表征能力严重损失
-
后处理依赖: 现代可微搜索方法常需后处理 magnitude thresholding,需要专家知识和人工干预
-
多阶段流水线: 搜索阶段 + 微调阶段的两阶段流程计算代价高
-
本文的动机
-
将剪枝问题转化为单次预算感知学习问题,让模型自己学会该剪什么
-
同时在 macro 和 micro 两个粒度放置 Gumbel-Sigmoid 门控,通过温度退火自然收敛到离散子架构
-
方法详解
-
模型架构
-
HiAP 应用于标准 ViT 架构(以 DeiT-Small 为主要实验对象):
- 输入: 图像 patch 序列,长度 ,嵌入维度
- Backbone: 层 Transformer,每层 个注意力头,头维度 ,FFN 隐藏宽度
- 核心模块: 层级 Gumbel-Sigmoid 门控系统,分为 macro-gates 和 micro-gates
- 输出: 分类预测
-
符号定义
-
Macro-gates: 控制第 层第 个注意力头; 控制第 层 FFN 块
-
Micro-gates: 控制头内第 个维度; 控制 FFN 第 个神经元
-
完整门控集合记为
-
核心模块
-
模块1: Macro-Level 剪枝
-
设计动机: 消除整个注意力头和 FFN 块,直接减少内存带宽瓶颈和层级计算开销
-
具体实现:
- 注意力头门控:当 时,第 层第 个注意力头被完全绕过
- FFN 块门控:当 时,第 层整个 FFN 块被移除
- 利用残差连接保证梯度流在块被剪除后仍可通过
-
模块2: Micro-Level 剪枝
-
设计动机: 在活跃的 macro 结构内部进一步精细裁剪,获得异构宽度分布
-
具体实现:
- 对活跃注意力头的 value-path 维度施加门控
- 对活跃 FFN 块的中间层神经元施加门控
- 导出时物理截断:删除 对应列和 对应行
-
模块3: 单阶段训练与温度退火
-
设计动机: 消除两阶段流水线(搜索+微调)的低效,统一为单一连续过程
-
具体实现:
- Gumbel-Sigmoid 温度 从初始值 指数衰减到
- 早期高 :门控类似随机 dropout,迫使存活权重学习鲁棒分布式表征
- 后期低 :概率密度向 0 和 1 双极化,自然硬化为离散子架构
- 训练结束后以 阈值确定性硬化,物理提取子网络
-
模块4: 结构可行性约束
-
设计动机: 防止 神经架构搜索 中常见的结构坍塌(贪婪剪除整层)
-
具体实现:
- 对每层施加最小保留配额:若活跃头数低于阈值 ,则施加 ReLU 二次惩罚
- 类似约束保证最小比例的注意力维度()和 FFN 神经元()存活
-
关键公式
-
公式1: Macro-Level 注意力门控
-
含义: macro-gate 控制第 层第 个注意力头的完整输出, 时整个头被跳过
-
符号说明:
- : 第 层第 个头的 macro 门控
- : Query / Key / Value 投影矩阵
-
公式2: Macro-Level FFN 门控
-
含义: macro-gate 控制第 层整个 FFN 块的保留或移除
-
符号说明:
- : 第 层 FFN 块的 macro 门控
-
公式3: Micro-Level 注意力维度门控
-
含义: 在活跃头内部,micro-gate 逐维度选择性剪枝 value-path 维度
-
符号说明:
- : 头内维度的 micro 门控向量
- : channel-wise 广播乘法
-
公式4: Micro-Level FFN 神经元门控
-
含义: 在活跃 FFN 块内部,micro-gate 逐神经元选择性剪枝中间隐藏层
-
符号说明:
- : FFN 中间层神经元的 micro 门控向量
- : 非线性激活函数(如 GELU)
- : FFN 的两层权重矩阵
-
公式5: 可微分 MACs 成本建模
-
含义: 将网络的可剪枝计算成本分解为关于门控变量的线性期望,使优化器能精确地将硬件惩罚归因到单个结构单元
-
符号说明:
- : 单个头的 macro 开销(Q/K/V 投影 + 注意力图计算)
- : 单个存活 value 维度的 micro 成本
- : 单个存活 FFN 中间神经元的 micro 成本
-
公式6: Gumbel-Sigmoid 松弛
-
含义: 将二值门控松弛为连续变量 ,通过添加 Logistic 噪声 并施加带温度 的 sigmoid,实现端到端可微优化
-
符号说明:
- : 可学习 logit 参数
- : Logistic 分布噪声
- : 温度参数(从 退火到 )
- : sigmoid 函数
-
公式7: 总优化目标
-
含义: 联合优化任务损失(交叉熵 + 知识蒸馏)、macro/micro 成本惩罚和结构可行性约束
-
符号说明:
- : 交叉熵 + KD 软目标损失(, )
- : macro/micro 成本惩罚系数(解耦控制)
- : 惩罚 对应的 macro 结构成本
- : 惩罚 对应的 micro 结构成本
- : 结构可行性约束
-
公式8: 结构可行性惩罚
其中
-
含义: 当任一层的活跃头数低于阈值 时施加二次惩罚,防止结构坍塌
-
符号说明:
- : 各约束项的权重
- : 每层最小保留头数
- : 最小存活维度/神经元比例
-
关键图表
-
Figure 1: Overview / HiAP 框架概览
{:width 600}
-
说明: HiAP 框架应用于标准 ViT 块的整体架构。可学习 Gumbel-Sigmoid 门控在两个粒度上操作:macro-gates 控制整个注意力头()和 FFN 块()的保留,micro-gates 控制头内维度()和 FFN 神经元()的精细裁剪。
-
Figure 2: Temperature Annealing / Gumbel-Sigmoid 温度退火
{:width 600}
-
说明: Gumbel-Sigmoid 温度退火过程可视化。早期高温()时分布近似高斯,作为软连续正则化器;随训练推进温度衰减,概率密度向 0 和 1 双极化,自然硬化为离散子架构而不引起梯度震荡。
-
Figure 3: Discovered Architecture / 训练结束后的架构拓扑
{:width 600}
-
说明: HiAP 在 ImageNet 上训练结束后自动发现的架构拓扑。展示了各层注意力头和 FFN 神经元的异构保留模式——浅层保留更多容量,深层(尤其最后一层 )被大幅剪枝甚至整个 FFN 块被移除。
-
Figure 4: Pareto Frontier / 不同惩罚配置的 Pareto 前沿
{:width 600}
-
说明: 早期训练阶段不同 配比下的 Top-1 准确率 vs GFLOPs Pareto 前沿。 比率在 DeiT-Small 上表现最优。
-
Figure 5: Penalty Ratio 2:1 /
{:width 600}
-
说明: 推荐的 比率配置下各层结构演化。深色表示保留更多神经元/头,浅色表示更多剪枝。展现了稳定的层级剪枝轨迹。
-
Figure 6: Penalty Ratio 5:1 /
{:width 600}
-
说明: 偏重 macro 的 配置。优先丢弃注意力头,但弱 micro 惩罚导致剩余神经元过度膨胀。
-
Figure 7: Penalty Ratio 1.5:1 /
{:width 600}
-
说明: 比率产生更均衡的拓扑,与 配置竞争力相当。
-
Figure 8: Macro-Only /
{:width 600}
-
说明: 纯 macro 惩罚配置。网络在训练早期即激进绕过多个块,MLP 块保留近 100% 神经元,导致 FLOP 预算分配不均衡。
-
Figure 9: Micro-Only /
{:width 600}
-
说明: 纯 micro 惩罚配置。有趣的是,不仅直接减少神经元数量,还间接导致整个 MLP 块被消除。所有注意力头被保留但 FFN 中间层被大幅压缩。
-
Table 1: 结构化剪枝框架对比
| 方法 | Macro (深度 & 头) | Micro (头内 & FFN) | 搜索与预算执行方式 |
|---|---|---|---|
| ViT-Slim | 无 | 头内维度, FFN 神经元 | 稀疏 + 秩阈值 |
| SAViT | 注意力头 | FFN 神经元, Embedding | Taylor 联合优化 + EA |
| GOHSP | 注意力头 | 头内维度, FFN 神经元 | 图排序 + 优化 |
| NViT | 注意力头 | 头内维度, FFN 神经元 | 延迟感知 Taylor 排序 |
| UPDP | FFN 块 | 无 | 遗传算法 |
| S2ViTE | 注意力头 | FFN 神经元 | 动态稀疏训练 |
| WDPruning | Transformer 块, 头 | 头内维度, FFN 神经元 | 显著性分数 |
| HiAP (Ours) | FFN 块, 头 | 头内维度, FFN 神经元 | 端到端自动惩罚 |
-
Table 2: ImageNet-1K DeiT-Small 剪枝结果
| 方法 | Params (M) | FLOPs (G) | Top-1 Acc (%) | 变化 (%) |
|---|---|---|---|---|
| Dense Baseline | 22.1 | 4.6 | 79.85 | – |
| WDPruning | 15.0 | 3.1 | 78.55 | -1.30 |
| WDPruning | 13.3 | 2.6 | 78.38 | -1.47 |
| S2ViT | 15.3 | 3.1 | 79.22 | -0.63 |
| S2ViT | 13.5 | 2.8 | 78.44 | -1.41 |
| ViT-Slim | 15.6 | 3.1 | 79.90 | +0.05 |
| ViT-Slim | 13.5 | 2.8 | 79.50 | -0.35 |
| GOHSP | 14.4 | 3.0 | 79.98 | +0.13 |
| GOHSP | 11.1 | 2.8 | 79.86 | +0.01 |
| HiAP (Ours) | 15.0 | 3.1 | 79.10 | -0.75 |
| HiAP (Ours) | 12.3 | 2.5 | 77.95 | -1.90 |
-
Table 3: CIFAR-10 ViT-Tiny 消融实验
| 方法 | MACs (M) | 压缩率 (%) | Final Acc. (%) |
|---|---|---|---|
| Dense Baseline | 174.0 | 0.0 | 90.50 |
| Uniform-Ratio | 116.6 | 33.0 | 86.63 |
| -Structured (FFN) | 116.5 | 33.0 | 87.15 |
| HiAP (Moderate) | 116.3 | 33.1 | 87.56 |
| -Structured (FFN) | 87.3 | 49.8 | 86.80 |
| HiAP (Aggressive) | 87.1 | 49.9 | 87.25 |
-
实验结果
-
数据集
| 数据集 | 规模 | 特点 | 用途 |
|---|---|---|---|
| ImageNet-1K | 1.28M 训练 / 50K 验证 | 1000 类大规模图像分类 | 主要评估 |
| CIFAR-10 | 60K | 10 类,32x32 | 控制消融与延迟测试 |
-
实现细节
-
Backbone: DeiT-Small(ImageNet)/ 自定义 6 层 ViT-Tiny(CIFAR-10)
-
优化器: AdamW, 学习率
-
Batch Size: 256(全局)
-
训练轮数: 200 epochs(单阶段,搜索+训练同时进行)
-
温度退火: 从 2.0 指数衰减到 0.5
-
知识蒸馏: 使用预训练 Dense DeiT-Small 作为教师(, )
-
硬化阈值:
-
主要结论
-
ImageNet: HiAP 将 DeiT-Small 压缩至 3.1G MACs(约 33% 计算量削减),Top-1 准确率 79.10%(仅降 0.75%);更激进的 2.5G MACs 配置下准确率 77.95%
-
CIFAR-10: 在 33% 压缩下比 Uniform-Ratio 高 +0.93%,在 50% 压缩下比 -Structured 高 +0.45%
-
硬件加速: 33.1% 压缩的模型延迟从 5.57ms 降至 3.86ms,实现约 1.44x 推理加速
-
搜索动态分析
-
早期 Macro 优先: 前 10 epochs 内,网络激进地将活跃注意力头从 6 减至平均 2-4 个/层;算法一致性地识别出最后一层()的 FFN 块完全冗余()
-
后期 Micro 精调: macro 门稳定后,网络转向利用 micro 稀疏性满足剩余 MACs 预算。浅层保留近满容量(约 1400/1536 活跃神经元),深层激进压缩(约 1200 活跃神经元)
-
异构宽度: 存活注意力头内维度从 64 动态截断至 32 或更少
-
理论备注
-
Lemma 1: 表达性严格超集
令 为仅用 macro 门可达的架构集, 为同时使用 micro 门的架构集。若任一层 或 ,则 。
-
Proposition 1: 预算线性分解
存在非负权重 使得 ,其中 。无需独立性假设,因线性期望对任意相关性成立。
-
Proposition 2: 软-硬预算对齐
当 时,连续期望成本收敛至离散成本,使用固定阈值 即可找到满足 的子网络。
-
批判性思考
-
优点
-
统一且简洁: 将 macro+micro 剪枝统一到单一可微框架,无需多阶段流水线或人工启发式
-
理论完备: 可微 MACs 成本的线性分解有严格数学保证(Proposition 1-2),温度退火有信息论支撑
-
实用性强: 物理提取的子网络无需稀疏卷积引擎,直接在标准硬件上获得真实加速
-
自动异构: 网络自主学习不同层的异构剪枝策略,浅层保留多、深层激进压缩,符合直觉
-
局限性
-
准确率差距: 在 3.1G MACs 下 HiAP(79.10%)相比 GOHSP(79.98%)和 ViT-Slim(79.90%)仍有约 0.8-0.9% 的差距,说明简洁性与极致性能之间存在 trade-off
-
MACs vs 真实延迟: 优化目标为期望 MACs 而非校准后的延迟/能耗,实际加速因硬件/kernel 而异
-
仅验证分类: 未在检测、分割等下游任务验证泛化性
-
搜索成本: 虽为单阶段但仍需 200 epochs 完整训练,对大规模模型的可扩展性需进一步验证
-
潜在改进方向
-
引入平台校准的延迟/能耗信号替代 MACs 代理
-
与 token 剪枝(如 Token Merging)、量化、编译器优化组合
-
扩展至 LLM 或 multi-modal Transformer 的自动结构搜索
-
探索 的自适应调度策略
-
可复现性评估
-
代码开源(论文未提供)
-
预训练模型(未提供)
-
训练细节完整(优化器、学习率、batch size、温度退火策略均详细说明)
-
数据集可获取(ImageNet-1K、CIFAR-10)
-
关联笔记
-
基于
-
DeiT: 主要实验骨干网络
-
ViT: 基础架构
-
对比
-
ViT-Slim: 仅 micro 粒度剪枝, 稀疏+秩阈值
-
GOHSP: 图排序的头和维度联合剪枝
-
WDPruning: 多粒度但基于显著性分数
-
S2ViTE: 动态稀疏训练
-
方法相关
-
Gumbel-Sigmoid: 核心门控松弛技术
-
结构化剪枝: 剪枝范式
-
STE: 反向传播中的 Straight-Through Estimator
-
知识蒸馏: 训练中使用预训练教师模型的软目标
-
神经架构搜索: 可微分架构搜索范式
-
硬件/数据相关
-
ImageNet: 主要评估数据集
-
速查卡片
-
HiAP: A Multi-Granular Stochastic Auto-Pruning Framework for Vision Transformers
- 核心: 多粒度 Gumbel-Sigmoid 门控实现 ViT 单阶段自动剪枝
- 方法: Macro-gates(头+FFN块)+ Micro-gates(维度+神经元)+ 可微 MACs 成本 + 温度退火
- 结果: DeiT-Small 在 3.1G MACs(-33%)下 Top-1 79.10%,1.44x 真实加速
- 代码: 未公开
笔记创建时间: 2026-03-14