MLP 模块
分类: 网络架构
MLP 模块
定义
Transformer 中每个 block 包含的全连接前馈网络子结构,通常由两个线性层和一个激活函数(GELU/ReLU)组成,承担特征变换与非线性映射功能。
数学形式
其中 ,, 为隐层维度(通常为 )。
核心要点
在标准 Transformer 中占总参数量的约 2/3( 时 MLP 参数为 ,Attention 为 )
大型 ViT(如 EVA-CLIP-E)中 MLP 占比高达 81.1%
不同 Transformer block 的 MLP 冗余程度差异显著,适合自适应剪枝
可通过减小隐层维度 实现结构化剪枝
代表工作
Vaswani et al. (2017): Transformer 原始论文,提出 FFN 结构
AMP (2026): 针对大型 ViT 的 MLP 隐层自适应剪枝