可学习门控

分类: 剪枝与稀疏化

type:: concept aliases:: Learnable Gates, Gating Mechanism

  • 可学习门控

  • 定义

  • 在网络结构中引入可训练的门控参数(通常为标量或向量),通过梯度优化自动决定哪些结构(通道、头、层)应保留或剪除

  • 数学形式

y=gf(x),g{0,1} or g(0,1)y = g \cdot f(x), \quad g \in \{0, 1\} \text{ or } g \in (0, 1)

训练时通常使用连续松弛(如 Gumbel-Sigmoid、Sigmoid)使 gg 可微,推理时硬化为二值。

  • 核心要点

  • 替代传统基于重要性评分(magnitude、Taylor expansion)的剪枝判据

  • 门控参数与网络权重联合优化,实现端到端结构搜索

  • 常与温度退火结合:高温探索 → 低温收敛

  • 代表工作

  • HiAP: 层次化 Gumbel-Sigmoid 门控实现多粒度 ViT 剪枝

  • SViTE: 在 ViT 中引入可学习稀疏门控

  • X-Pruner: 类别感知的可学习 mask

  • 相关概念

  • Gumbel-Sigmoid

  • 结构化剪枝

  • STE

  • 神经架构搜索