Gumbel-Sigmoid

分类: 深度学习基础

Gumbel-Sigmoid

定义

  • 基于 Gumbel 分布的连续松弛技术,将离散的二值选择(0/1)转化为可微的连续操作,常用于结构化剪枝中的门控机制

数学形式

  • g=σ(logulog(1u)+logατ),uUniform(0,1)g = \sigma\left(\frac{\log u - \log(1-u) + \log\alpha}{\tau}\right), \quad u \sim \text{Uniform}(0,1)

核心要点

  • Gumbel-Softmax 的二值版本,输出在 (0,1) 之间
  • 温度参数 τ 控制松弛程度:τ→0 时趋近离散二值
  • 常用于 NAS 和结构化剪枝中的可微架构搜索
  • HiAP 用它实现多粒度 ViT 自动剪枝

代表工作

  • HiAP: 在 ViT 多粒度自动剪枝中用 Gumbel-Sigmoid 门控实现 macro+micro 两级可微架构搜索

相关概念