RoPE

分类: 网络架构

RoPE

定义

  • 一种相对位置编码方法,通过对 query 和 key 向量施加旋转变换来注入位置信息,具有良好的外推性和理论性质

数学形式

  • f(xm,m)=xmeimθ,where θj=100002j/df(x_m, m) = x_m e^{im\theta}, \quad \text{where } \theta_j = 10000^{-2j/d}

核心要点

  • 将位置信息编码为旋转矩阵作用于 Q/K 向量
  • 天然编码相对位置关系
  • LLaMA, GPT-NeoX, PaLM 等主流模型广泛使用
  • 支持通过 NTK-aware scaling 扩展上下文长度

代表工作

  • (待补充)

相关概念