CS224N / 学习笔记

Cross-Modal Attention

分类: 深度学习基础

定义

在不同模态（如视觉和语言）之间计算注意力分布的机制，用于建立跨模态的语义对齐和信息融合

数学形式

\text{Attn}(Q_v, K_t, V_t) = \text{softmax}\left(\frac{Q_v K_t^\top}{\sqrt{d}}\right) V_t

其中 $Q_v$ 来自视觉模态， $K_t, V_t$ 来自文本模态（或反之）。

核心要点

与自注意力不同，Query 和 Key/Value 来自不同模态

实现方式：交叉注意力层、点积相似度、双线性注意力等

在 VLM/VLA 中用于将语言指令的语义信息注入视觉特征

可作为视觉区域与文本的相关性度量，用于 token 重要性评估

代表工作

VLA-IAP: 用跨模态点积注意力计算语义先验，衡量视觉 token 与指令的语义相关度

相关概念

Multi-Head Attention