GELU
分类: 深度学习基础
type:: concept
aliases:: Gaussian Error Linear Unit
GELU(x)=x⋅Φ(x)≈0.5x(1+tanh[2/π(x+0.044715x3)])
-
核心要点
-
相比 ReLU 更平滑,在零点附近有非零梯度
-
已成为 Transformer(BERT、GPT、ViT)的标准激活函数
-
由 Hendrycks & Gimpel (2016) 提出
-
代表工作
-
HiAP: ViT 的 FFN 模块中使用 GELU 作为激活函数 ϕ(⋅)
-
相关概念
-
ViT
-
Softmax