Transformer
分类: 网络架构
Transformer
定义
基于自注意力机制(Self-Attention)的序列到序列架构,通过 Multi-Head Attention 和前馈网络交替堆叠构建深层网络,完全摒弃循环和卷积结构
数学形式
核心要点
由 Vaswani et al. 2017 在 “Attention Is All You Need” 中提出
核心组件:Multi-Head Attention + Feed-Forward Network + Layer Normalization + Residual Connection
并行计算能力强,训练效率远超 RNN/LSTM
已成为 NLP(GPT, BERT)和 CV(ViT, Swin)领域的统治性架构
计算复杂度 ,序列长度的二次方是主要瓶颈
代表工作
ViT: 将 Transformer 应用于视觉任务的开创性工作
BERT: 双向预训练语言模型
GPT: 自回归语言模型系列