Key-Value Projection

分类: 深度学习基础

Key-Value Projection

定义

Transformer 注意力机制中将隐状态投影为 Key 和 Value 矩阵的线性变换

数学形式

K=HWK,V=HWVK = H W_K, \quad V = H W_V

核心要点

标准 Transformer 包含 Q/K/V 三组投影

MSA 额外引入 Router K Projection (KR=HWKRK^R = H W_{K^R}),用于稀疏路由

投影矩阵是可学习参数,不同头使用不同投影

代表工作

MSA: 在标准 KV 投影基础上增加 Router K Projector,实现文档级稀疏路由

相关概念

Multi-Head Attention

Self-Attention

KV Cache