Self-Attention
分类: 深度学习基础
Self-Attention
定义
Transformer 的核心机制,通过计算序列中每个位置与所有其他位置的相关性来聚合信息
数学形式
其中 ,,。
核心要点
时间复杂度 ,空间复杂度 , 为序列长度
在 LVLM 中,视觉 token 的加入大幅增加序列长度,使自注意力成为计算瓶颈
优化方向:FlashAttention(IO 优化)、稀疏注意力、token 剪枝减少
代表工作
ViT: 将 Self-Attention 应用于图像 patch
FlashAttention: IO-aware 的高效注意力实现