SiLU
分类: 深度学习基础
SiLU (Sigmoid Linear Unit)
定义
也称 Swish 激活函数,由输入与其 sigmoid 的乘积定义,兼具 ReLU 的稀疏性和平滑可微性
数学形式
核心要点
由 Ramachandran et al. (2017) / Elfwing et al. (2018) 提出
平滑、非单调、处处可微
被 LLaMA、Mistral 等现代 LLM 的 FFN 层广泛采用(替代 ReLU/GELU)
在 gated FFN 中常与 gate projection 配合:
代表工作
LLaMA 系列: FFN 使用 SiLU gated MLP
TIDE: router MLP 中使用 SiLU 激活