SiLU

分类: 深度学习基础

SiLU (Sigmoid Linear Unit)

定义

也称 Swish 激活函数,由输入与其 sigmoid 的乘积定义,兼具 ReLU 的稀疏性和平滑可微性

数学形式

SiLU(x)=xσ(x)=x1+ex\text{SiLU}(x) = x \cdot \sigma(x) = \frac{x}{1 + e^{-x}}

核心要点

由 Ramachandran et al. (2017) / Elfwing et al. (2018) 提出

平滑、非单调、处处可微

被 LLaMA、Mistral 等现代 LLM 的 FFN 层广泛采用(替代 ReLU/GELU)

在 gated FFN 中常与 gate projection 配合:SiLU(xWgate)(xWup)\text{SiLU}(xW_{\text{gate}}) \odot (xW_{\text{up}})

代表工作

LLaMA 系列: FFN 使用 SiLU gated MLP

TIDE: router MLP 中使用 SiLU 激活

相关概念

Sigmoid

GELU

RMSNorm