MLP 模块

分类: 网络架构

MLP 模块

定义

Transformer 中每个 block 包含的全连接前馈网络子结构,通常由两个线性层和一个激活函数(GELU/ReLU)组成,承担特征变换与非线性映射功能。

数学形式

MLP(x)=W2GELU(W1x+b1)+b2\text{MLP}(x) = W_2 \cdot \text{GELU}(W_1 x + b_1) + b_2

其中 W1Rdff×dW_1 \in \mathbb{R}^{d_{ff} \times d}W2Rd×dffW_2 \in \mathbb{R}^{d \times d_{ff}}dffd_{ff} 为隐层维度(通常为 4d4d)。

核心要点

在标准 Transformer 中占总参数量的约 2/3(dff=4dd_{ff} = 4d 时 MLP 参数为 8d28d^2,Attention 为 4d24d^2

大型 ViT(如 EVA-CLIP-E)中 MLP 占比高达 81.1%

不同 Transformer block 的 MLP 冗余程度差异显著,适合自适应剪枝

可通过减小隐层维度 dffd_{ff} 实现结构化剪枝

代表工作

Vaswani et al. (2017): Transformer 原始论文,提出 FFN 结构

AMP (2026): 针对大型 ViT 的 MLP 隐层自适应剪枝

相关概念

信息熵

二分搜索

Taylor pruning