Transformer

分类: 网络架构

定义

基于自注意力机制（Self-Attention）的序列到序列架构，通过 Multi-Head Attention 和前馈网络交替堆叠构建深层网络，完全摒弃循环和卷积结构

$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$

由 Vaswani et al. 2017 在 “Attention Is All You Need” 中提出

核心组件：Multi-Head Attention + Feed-Forward Network + Layer Normalization + Residual Connection

并行计算能力强，训练效率远超 RNN/LSTM

已成为 NLP（GPT, BERT）和 CV（ViT, Swin）领域的统治性架构

计算复杂度 $O(n^2 d)$ ，序列长度的二次方是主要瓶颈

ViT: 将 Transformer 应用于视觉任务的开创性工作

BERT: 双向预训练语言模型

GPT: 自回归语言模型系列