Transformer

分类: 网络架构

Transformer

定义

基于自注意力机制(Self-Attention)的序列到序列架构,通过 Multi-Head Attention 和前馈网络交替堆叠构建深层网络,完全摒弃循环和卷积结构

数学形式

Attention(Q,K,V)=softmax(QKTdk)V\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V

核心要点

由 Vaswani et al. 2017 在 “Attention Is All You Need” 中提出

核心组件:Multi-Head Attention + Feed-Forward Network + Layer Normalization + Residual Connection

并行计算能力强,训练效率远超 RNN/LSTM

已成为 NLP(GPT, BERT)和 CV(ViT, Swin)领域的统治性架构

计算复杂度 O(n2d)O(n^2 d),序列长度的二次方是主要瓶颈

代表工作

ViT: 将 Transformer 应用于视觉任务的开创性工作

BERT: 双向预训练语言模型

GPT: 自回归语言模型系列

相关概念

PreNorm

FlashAttention

MoE

RoPE