Key-Value Projection
分类: 深度学习基础
Key-Value Projection
定义
Transformer 注意力机制中将隐状态投影为 Key 和 Value 矩阵的线性变换
数学形式
核心要点
标准 Transformer 包含 Q/K/V 三组投影
MSA 额外引入 Router K Projection (),用于稀疏路由
投影矩阵是可学习参数,不同头使用不同投影
代表工作
MSA: 在标准 KV 投影基础上增加 Router K Projector,实现文档级稀疏路由