Alternating Gradient Flow Utility: A Unified Metric for Structural Pruning and Dynamic Routing in Deep Networks

作者: Tianhao Qian, Zhuoxuan Li, Jinde Cao, Xinli Shi, Hanjie Liu, Leszek Rutkowski 年份: 2026 会议: arXiv 分类: 剪枝与稀疏化

论文笔记：Alternating Gradient Flow Utility: A Unified Metric for Structural Pruning and Dynamic Routing in Deep Networks

元信息

项目	内容
机构	Southeast University (China), Polish Academy of Sciences, AGH University, SAN University
日期	March 2026
项目主页	无
对比基线	Wanda, RIA, Taylor pruning
链接	arXiv

一句话总结

提出基于特征空间绝对 Taylor 展开的 AGF 度量，统一结构化剪枝通道选择与动态路由决策，在极端稀疏度下保持拓扑完整性。

核心贡献

拓扑相变发现: AGF 识别出幅度剪枝方法在极端稀疏度（25% width）下会破坏的关键网络路径，揭示了 magnitude-based 与 gradient-based 度量的正交性

信号饱和分析: 发现收敛模型中梯度信号被压缩，论证了离线拓扑构建与在线动态路由的解耦必要性

混合路由框架: 结合 AGF 引导的剪枝与基于置信度的动态路由，实现精度-效率的 Pareto 最优

问题背景

要解决的问题

结构化剪枝中通道重要性度量的选择问题：现有基于幅度的方法（如 Wanda、RIA）在极端压缩下性能急剧退化

静态剪枝与动态推理之间缺乏统一的理论框架

现有方法的局限

幅度偏差（Magnitude Bias）: 静态度量会系统性地消除低幅度但作为关键路由整合器的神经元，在压缩拓扑中导致性能低于随机采样

信号饱和: 在充分训练的模型中，梯度信号被压缩（从 149.4× 压缩到 21.4×），导致基于梯度的度量区分度下降

缺乏解耦: 现有方法将拓扑选择和推理路由耦合在一起

本文的动机

通过在特征空间（而非权重空间）计算绝对 Taylor 展开，避免梯度正负抵消问题

解耦为两阶段：离线拓扑构建 + 在线动态路由，各自优化

方法详解

整体框架

AGF 采用两阶段解耦架构：

Phase 1（离线）: 在校准数据上累积 AGF 分数，选择 top-k 通道进行结构化剪枝，然后微调
Phase 2（在线）: 基于置信度阈值 $\tau$ 的级联路由，无需梯度计算
轻量专家: 通过 AGF 剪枝得到的子网络
全容量专家: 原始未剪枝模型

核心模块

模块1: Alternating Gradient Flow (AGF) 度量

设计动机: 利用Taylor 展开在特征空间的绝对值形式，避免传统 Taylor 展开中梯度正负抵消的问题

具体实现:

对每个通道 $c$ ，在 $T$ 个校准批次上累积特征值与其梯度的逐元素乘积的绝对值
使用Hadamard 乘积（逐元素乘法） $Y_c^{(x)} \odot \nabla_{Y_c^{(x)}} \mathcal{L}$ 捕获特征的敏感度
通过时间平均获得稳定的通道重要性分数
根据分数排序，保留 top-k 通道

模块2: 置信度级联路由器

设计动机: 利用Softmax输出的 top-1 置信度作为难度度量，实现自适应计算分配

具体实现:

输入先经过轻量剪枝专家推理
若 top-1 预测置信度 $\geq \tau$ ，直接输出（简单样本）
若置信度 $< \tau$ ，转发给全容量专家处理（困难样本）
阈值 $\tau$ 控制精度-效率权衡

关键公式

公式1: 通道全变差 (Total Variation)

\text{TV}(Y_c) = \int_0^T \left| \frac{\partial \mathcal{L}}{\partial Y_c^{(t)}} \cdot \frac{dY_c^{(t)}}{dt} \right| dt

含义: 衡量通道 $c$ 在训练轨迹上的累积绝对梯度流，捕获通道对损失函数的动态敏感度

符号说明:

$Y_c^{(t)}$ : 通道 $c$ 在时间 $t$ 的特征激活值
$\mathcal{L}$ : 损失函数
$T$ : 校准轨迹长度
绝对值确保正负梯度贡献不相互抵消

公式2: 离散 AGF 代理 (Discrete AGF Proxy)

\mathcal{U}_c = \frac{1}{T} \sum_{t=1}^{T} \mathbb{E}_{x \sim \mathcal{B}_t} \left[ \left| Y_c^{(x)} \odot \nabla_{Y_c^{(x)}} \mathcal{L} \right| \right]

含义: 公式1的离散近似，在 $T$ 个校准批次上计算通道 $c$ 的特征空间绝对 Taylor 展开值

符号说明:

$\mathcal{U}_c$ : 通道 $c$ 的 AGF 效用分数
$T$ : 校准批次数（论文中 $T=4\text{-}8$ ）
$\mathcal{B}_t$ : 第 $t$ 个校准批次
$Y_c^{(x)}$ : 输入 $x$ 对应通道 $c$ 的特征激活
$\odot$ : Hadamard 乘积（逐元素乘法）
$\nabla_{Y_c^{(x)}} \mathcal{L}$ : 损失对特征的梯度
$|\cdot|$ : 逐元素取绝对值，防止正负抵消

关键图表

Figure 1: Overview / AGF 引导的效率框架概览

Figure 1: Overview {:width 600}

说明: AGF 的两阶段框架。Phase 1（离线）：通过 AGF 度量在校准数据上评估通道重要性并剪枝；Phase 2（在线）：基于置信度的级联路由，简单样本走轻量专家，困难样本走全容量专家。

Figure 2: Metric Stability and Orthogonality / 度量稳定性与正交性分析

Figure 2: Metric Orthogonality {:width 600}

说明: WideResNet 在 CIFAR-100 上 $k=32$ 极端稀疏度下的度量正交性散点图。蓝色点为幅度方法选择的通道，红色点为 AGF 选择的动态路由枢纽。Jaccard 指数 $J \approx 0$ ，表明两类度量选择的通道集合几乎完全不重叠，存在根本性分歧。

Figure 3: Difficulty Distribution / 路由样本难度分布

Figure 3: Difficulty Distribution {:width 600}

说明: 路由决策的难度分布分析。低信息熵（简单）样本被路由到剪枝专家，高熵（困难）样本被路由到全容量专家，验证了自适应路由的合理性。

Figure 4: Accuracy-Efficiency Trade-off / 精度-效率权衡

Figure 4: Pareto Frontier {:width 600}

说明: ImageNet-100 上的 Pareto 前沿。AGF 的自适应路由方案（红色曲线）在精度-计算开销平面上展示出凸优越性，超越随机路由基线。

Figure 5: Qualitative Visualization / 路由决策的定性可视化

Figure 5: Qualitative Visualization {:width 600}

说明: 路由决策的实际案例。居中主体、背景简洁的图片被路由到高效的剪枝专家；杂乱场景、复杂背景的图片被路由到全容量专家。

Figure 6: Metric Efficiency and Slope Analysis / 度量效率与斜率分析

Figure 6: Metric Efficiency {:width 600}

说明: 不同置信度阈值下各度量方法的效率曲线与斜率分析，展示 AGF 在”最后一英里”（ $\tau \to 1$ ）的效率优势。

Table I: CIFAR-100 剪枝 vs 从头训练详细对比

策略	宽度 (k)	平均准确率 (%)	Std (σ)	最优种子 (%)
Baseline (Full)	1024	68.66	N/A	68.66
Random Pruning	256	70.21	0.45	70.66
ℓ₁-Norm Pruning	256	70.32	0.22	70.46
AGF Pruning (Ours)	256	70.75	0.08	70.81
Narrow (Scratch)	256	70.92	0.28	71.17
ℓ₁-Norm Pruning	128	69.78	0.23	69.95
Taylor Pruning	128	69.50	0.04	69.54
Wanda Pruning	128	69.49	0.13	69.64
RIA Pruning	128	68.51	0.32	68.70
AGF Pruning (Ours)	128	70.05	0.17	70.23
Narrow (Scratch)	128	70.96	N/A	70.96
Random Pruning	32	67.79	0.27	68.09
ℓ₁-Norm Pruning	32	68.60	0.28	68.84
Taylor Pruning	32	68.05	0.37	68.45
Wanda Pruning	32	68.47	0.63	69.19
RIA Pruning	32	68.97	0.40	69.30
AGF Pruning (Ours)	32	68.40	0.12	68.53
Narrow (Scratch)	32	45.42	N/A	45.42

表格说明: AGF 在 $k=128$ （12.5% 宽度）时显著优于所有基线（70.05% vs 次优 69.78%）；在 $k=32$ （3% 宽度）极端压缩下方差最低（σ=0.12），稳定性最佳。注意从头训练窄网络在 $k=32$ 时崩溃到 45.42%，验证了结构继承的重要性。

Table II: ImageNet-100 上 20-Epoch 恢复分析

策略	校准数据	Ep 10 (剪枝后)	峰值准确率	峰值 Epoch	vs. Taylor
Taylor (Baseline)	100 Batches	84.26%	84.57%	Ep 20	-
AGF (Dense)	100 Batches	83.84%	84.56%	Ep 17	-0.01%
AGF (Sparse)	10 Batches	83.60%	84.90%	Ep 20	+0.33%
Random	N/A	83.64%	83.61%	-	-0.96%
ℓ₁-Norm	N/A	83.15%	83.53%	-	-1.04%

表格说明: AGF (Sparse) 仅用 10 个校准批次即超越 Taylor (100 批次) +0.33%，揭示了拓扑隐式正则化现象——稀疏校准中的随机梯度噪声帮助结构选择远离数据特定的异常值。

Table III: ViT-Base 结构化剪枝 (MLP Width = 3072)

度量类型	策略	中等 (k=1536, 50%) Ep1	中等峰值	极端 (k=768, 25%) Ep1	极端峰值
Unpruned	Full Capacity	-	91.50%*	-	91.50%*
Static/Magnitude	RIA Pruning	-	-	73.61%	82.24%
Static/Magnitude	Wanda Pruning	79.82%	84.96%	66.50%	81.36%
Dynamic/Gradient	AGF (Ours)	85.00%	86.81%	73.88%	81.89%

表格说明: AGF 在 ViT 上同样有效。中等压缩时 AGF 峰值 86.81% 显著优于 Wanda 的 84.96%（+1.85%）。极端压缩时所有方法都接近稀疏度瓶颈（~81-82%）。

Table IV: 信号饱和：能量代理的regime依赖保真度

Regime	度量	Full	Pruned	比值	信号
ResNet-50 (Kinetic)	ℓ₁ Norm	107,142	1,781	60.2×	Physical Truth
ResNet-50 (Kinetic)	AGF Utility	0.0048	0.0001	44.7×	Aligned
WideResNet (Saturated)	ℓ₁ Norm	232,682	1,557	149.4×	Physical Truth
WideResNet (Saturated)	AGF Utility	4.89e-4	2.29e-5	21.4×	Compressed

表格说明: 在 Kinetic regime（ResNet-50）中 AGF 与物理真值对齐（44.7× vs 60.2×）；在 Saturated regime（WideResNet）中梯度信号从 149.4× 压缩到 21.4×，解释了收敛模型中需要解耦范式的原因。

Table V: ImageNet-100 动态路由主结果

方法	Acc (%)	vs. Random	路由比 (Full:Small)	估计开销
Static Full	88.74	+4.42	100 : 0	1.00×
Static Pruned	79.80	-4.52	0 : 100	0.85×
Random Policy	84.32	-	50 : 50	0.92×
Ours (Adaptive)	88.78	+4.46	48.5 : 51.5	0.92×

表格说明: 自适应路由器以 0.92× 的计算开销达到 88.78% 准确率，超越全模型（88.74%），同时将约 51.5% 的样本路由到轻量专家。

Table VI: ImageNet-1K 极端压力测试 (ResNet-50, 75% 压缩)

方法	度量代理	Acc (%)	vs. Random	vs. Wanda
Reference (100%)	Unpruned	80.35	-	-
Taylor Pruning	Loss Approx (∇W·W)	64.42	-0.51	-0.27
ℓ₁-Norm Pruning	Weights (‖W‖)	64.54	-0.39	-0.15
Wanda Pruning	Weights × Act	64.69	-0.24	-
Random Pruning	Uniform Sampling	64.93	-	+0.24
AGF (Ours)	Feature Sensitivity	64.99	+0.06	+0.30

表格说明: 在 ImageNet-1K 75% 极端压缩下，幅度方法全部低于随机剪枝（证实 Magnitude Bias 的存在），而 AGF 以 64.99% 超越随机基线，避免了破坏性拓扑偏差。

Table VII: 置信度路由完整数值扫描

阈值 (τ)	AGF Acc (%)	AGF Cost	ℓ₁ Acc (%)	ℓ₁ Cost	Random Acc (%)	Random Cost	Regime
0.000	68.54	1.00	68.83	1.00	68.13	1.00	Pruned Only
0.500	69.26	7.28	69.61	7.93	69.25	8.26	Low Cost
0.700	70.94	21.33	71.04	21.35	70.87	21.69	-
0.800	71.40	28.39	71.47	29.16	71.37	29.30	-
0.900	72.10	38.08	72.11	39.29	72.08	39.61	Balanced
0.950	72.35	45.70	72.51	47.39	72.35	47.63	-
0.980	72.48	54.61	72.66	56.39	72.48	56.85	-
0.990	72.65	60.44	72.57	62.57	72.48	62.66	Peak
0.999	72.49	76.17	72.33	78.71	72.11	80.80	Over-Conservative
1.000	71.17	150.41	71.17	150.41	71.17	150.41	Full Expert

表格说明: AGF 在 $\tau=0.990$ 时达到峰值 72.65%，且在所有阈值下计算开销均低于 ℓ₁ 和 Random 方法（更高效的路由）。过保守（ $\tau=0.999$ ）反而降低性能。

Table VIII: 教师模型训练超参数 (CIFAR-100)

参数	值
优化器	SGD (Nesterov)
动量	0.9
权重衰减	5×10⁻⁴
总轮数	150
Batch Size	32
初始学习率	1.0×10⁻³
LR 调度	Cosine Annealing
数据增强	RandomCrop, RandomHorizontalFlip

实验

数据集

数据集	规模	特点	用途
CIFAR-100	60K 张 32×32	100 类细粒度分类	剪枝方法对比
ImageNet-100	ImageNet 子集 100 类	中等规模验证	恢复分析 + 动态路由
ImageNet-1K	1.28M 张 224×224	1000 类大规模	极端压力测试

实现细节

Backbone: WideResNet (CIFAR-100), ResNet-50 (ImageNet), ViT-Base (ViT 实验)

优化器: SGD (Nesterov), momentum=0.9, weight decay=5e-4

Batch Size: 32

训练轮数: 150 (teacher), 20 (fine-tune recovery)

硬件: AMD Ryzen 7 7840H + NVIDIA RTX 4060 (CIFAR); NVIDIA L4/T4 via Google Colab Pro (ImageNet)

AGF 校准: $T=4\text{-}8$ 批次，约 10-20 次反向传播

框架: PyTorch 2.9.0, CUDA 12.6

可视化结果

幅度方法与 AGF 选择的通道集合 Jaccard 指数 $J \approx 0$ ，几乎完全不重叠

稀疏校准（10 batch）反而比密集校准（100 batch）高 +0.34%（拓扑隐式正则化）

路由可视化显示：简单样本（居中主体）→ 剪枝专家；困难样本（复杂场景）→ 全模型

批判性思考

优点

理论清晰: 从全变差到离散 AGF 代理的推导链条完整，物理意义明确

揭示现有方法盲区: 在极端稀疏度下幅度方法低于随机剪枝这一发现具有重要实践价值

解耦范式合理: 离线拓扑 + 在线路由的两阶段设计在工程上可行

拓扑隐式正则化: 稀疏校准优于密集校准的发现非常有趣，暗示了结构选择中随机性的正面作用

局限性

CNN 为主: 初始严格分析限于 CNN，ViT 实验相对有限（仅 Table III）

校准开销: 需要约 10-20 次反向传播计算 AGF 分数，相比零成本的幅度方法有额外开销

非 SOTA 导向: 论文侧重度量比较而非工程优化技巧，未追求排行榜最优

单一路由机制: 仅使用 top-1 置信度作为路由信号，未探索更复杂的路由策略（如多级路由、基于特征的路由）

潜在改进方向

将 AGF 度量扩展到 LLM 的层级/注意力头剪枝

探索基于 AGF 分数的自适应校准批次数选择

结合 MoE 路由机制，实现多专家自适应路由

研究 AGF 在量化感知训练中的应用（通道敏感度 → 混合精度分配）

可复现性评估

代码开源（论文未提供代码链接）
预训练模型（使用标准 PyTorch 模型）
训练细节完整（Appendix B 详细列出所有超参数）
数据集可获取（CIFAR-100, ImageNet 均为公开数据集）

关联笔记

基于

Taylor pruning: AGF 的理论基础，将 Taylor 展开从权重空间转移到特征空间并取绝对值

Wanda: 权重 × 激活的幅度度量，AGF 的主要对比基线

对比

RIA: 基于幅度的剪枝方法，在极端稀疏度下表现不稳定

Wanda: Weights and Activations 方法，在 ImageNet-1K 极端压缩下低于随机剪枝

方法相关

结构化剪枝: 核心方法——通道级剪枝

动态路由: 在线推理阶段的自适应计算分配

Taylor pruning: AGF 度量的理论基础

Cosine Annealing: 训练使用的学习率调度策略

硬件/数据相关

ImageNet: 主要大规模评测数据集

速查卡片

Alternating Gradient Flow Utility

核心: 特征空间绝对 Taylor 展开统一剪枝与路由
方法: 离线 AGF 通道选择 + 在线置信度级联路由
结果: CIFAR-100 k=128 下 70.05%（+1.54% vs RIA）；ImageNet-100 自适应路由 88.78%（0.92× cost）
代码: 未公开

笔记创建时间: 2026-03-17