MLP 模块

分类: 网络架构

定义

Transformer 中每个 block 包含的全连接前馈网络子结构，通常由两个线性层和一个激活函数（GELU/ReLU）组成，承担特征变换与非线性映射功能。

\text{MLP}(x) = W_2 \cdot \text{GELU}(W_1 x + b_1) + b_2

其中 $W_1 \in \mathbb{R}^{d_{ff} \times d}$ ， $W_2 \in \mathbb{R}^{d \times d_{ff}}$ ， $d_{ff}$ 为隐层维度（通常为 $4d$ ）。

在标准 Transformer 中占总参数量的约 2/3（ $d_{ff} = 4d$ 时 MLP 参数为 $8d^2$ ，Attention 为 $4d^2$ ）

大型 ViT（如 EVA-CLIP-E）中 MLP 占比高达 81.1%

不同 Transformer block 的 MLP 冗余程度差异显著，适合自适应剪枝

可通过减小隐层维度 $d_{ff}$ 实现结构化剪枝

Vaswani et al. (2017): Transformer 原始论文，提出 FFN 结构

AMP (2026): 针对大型 ViT 的 MLP 隐层自适应剪枝