CS224N / 学习笔记

Self-Attention

分类: 深度学习基础

Self-Attention

定义

Transformer 的核心机制，通过计算序列中每个位置与所有其他位置的相关性来聚合信息

数学形式

\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^\top}{\sqrt{d_k}}\right) V

其中 $Q = XW_Q$ ， $K = XW_K$ ， $V = XW_V$ 。

核心要点

时间复杂度 $O(n^2 d)$ ，空间复杂度 $O(n^2)$ ， $n$ 为序列长度

在 LVLM 中，视觉 token 的加入大幅增加序列长度，使自注意力成为计算瓶颈

优化方向：FlashAttention（IO 优化）、稀疏注意力、token 剪枝减少 $n$

代表工作

ViT: 将 Self-Attention 应用于图像 patch

FlashAttention: IO-aware 的高效注意力实现

相关概念