Cross-Modal Attention
分类: 深度学习基础
Cross-Modal Attention
定义
在不同模态(如视觉和语言)之间计算注意力分布的机制,用于建立跨模态的语义对齐和信息融合
数学形式
其中 来自视觉模态, 来自文本模态(或反之)。
核心要点
与自注意力不同,Query 和 Key/Value 来自不同模态
实现方式:交叉注意力层、点积相似度、双线性注意力等
在 VLM/VLA 中用于将语言指令的语义信息注入视觉特征
可作为视觉区域与文本的相关性度量,用于 token 重要性评估
代表工作
VLA-IAP: 用跨模态点积注意力计算语义先验,衡量视觉 token 与指令的语义相关度