RoPE 分类: 网络架构RoPE 定义 一种相对位置编码方法,通过对 query 和 key 向量施加旋转变换来注入位置信息,具有良好的外推性和理论性质 数学形式 f(xm,m)=xmeimθ,where θj=10000−2j/df(x_m, m) = x_m e^{im\theta}, \quad \text{where } \theta_j = 10000^{-2j/d}f(xm,m)=xmeimθ,where θj=10000−2j/d 核心要点 将位置信息编码为旋转矩阵作用于 Q/K 向量 天然编码相对位置关系 LLaMA, GPT-NeoX, PaLM 等主流模型广泛使用 支持通过 NTK-aware scaling 扩展上下文长度 代表工作 (待补充) 相关概念 FlashAttention ViT