Cross-Modal Attention

分类: 深度学习基础

Cross-Modal Attention

定义

在不同模态(如视觉和语言)之间计算注意力分布的机制,用于建立跨模态的语义对齐和信息融合

数学形式

Attn(Qv,Kt,Vt)=softmax(QvKtd)Vt\text{Attn}(Q_v, K_t, V_t) = \text{softmax}\left(\frac{Q_v K_t^\top}{\sqrt{d}}\right) V_t

其中 QvQ_v 来自视觉模态,Kt,VtK_t, V_t 来自文本模态(或反之)。

核心要点

与自注意力不同,Query 和 Key/Value 来自不同模态

实现方式:交叉注意力层、点积相似度、双线性注意力等

在 VLM/VLA 中用于将语言指令的语义信息注入视觉特征

可作为视觉区域与文本的相关性度量,用于 token 重要性评估

代表工作

VLA-IAP: 用跨模态点积注意力计算语义先验,衡量视觉 token 与指令的语义相关度

相关概念

Multi-Head Attention

Self-Attention

CLIP