GELU

分类: 深度学习基础

type:: concept aliases:: Gaussian Error Linear Unit

  • GELU

  • 定义

  • 高斯误差线性单元,一种平滑的非线性激活函数,将输入乘以其对应的高斯累积分布函数值

  • 数学形式

GELU(x)=xΦ(x)0.5x(1+tanh[2/π(x+0.044715x3)])\text{GELU}(x) = x \cdot \Phi(x) \approx 0.5x\Big(1 + \tanh\Big[\sqrt{2/\pi}(x + 0.044715x^3)\Big]\Big)
  • 核心要点

  • 相比 ReLU 更平滑,在零点附近有非零梯度

  • 已成为 Transformer(BERT、GPT、ViT)的标准激活函数

  • 由 Hendrycks & Gimpel (2016) 提出

  • 代表工作

  • HiAP: ViT 的 FFN 模块中使用 GELU 作为激活函数 ϕ()\phi(\cdot)

  • 相关概念

  • ViT

  • Softmax