Gumbel-Sigmoid
分类: 深度学习基础
Gumbel-Sigmoid
定义
- 基于 Gumbel 分布的连续松弛技术,将离散的二值选择(0/1)转化为可微的连续操作,常用于结构化剪枝中的门控机制
数学形式
核心要点
- Gumbel-Softmax 的二值版本,输出在 (0,1) 之间
- 温度参数 τ 控制松弛程度:τ→0 时趋近离散二值
- 常用于 NAS 和结构化剪枝中的可微架构搜索
- HiAP 用它实现多粒度 ViT 自动剪枝
代表工作
- HiAP: 在 ViT 多粒度自动剪枝中用 Gumbel-Sigmoid 门控实现 macro+micro 两级可微架构搜索