Self-Attention

分类: 深度学习基础

Self-Attention

定义

Transformer 的核心机制,通过计算序列中每个位置与所有其他位置的相关性来聚合信息

数学形式

Attention(Q,K,V)=softmax(QKdk)V\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^\top}{\sqrt{d_k}}\right) V

其中 Q=XWQQ = XW_QK=XWKK = XW_KV=XWVV = XW_V

核心要点

时间复杂度 O(n2d)O(n^2 d),空间复杂度 O(n2)O(n^2)nn 为序列长度

在 LVLM 中,视觉 token 的加入大幅增加序列长度,使自注意力成为计算瓶颈

优化方向:FlashAttention(IO 优化)、稀疏注意力、token 剪枝减少 nn

代表工作

ViT: 将 Self-Attention 应用于图像 patch

FlashAttention: IO-aware 的高效注意力实现

相关概念

FlashAttention

KV-Cache

ViT