Positional Encoding

分类: 深度学习基础

定义

将低维输入坐标投射到高维傅里叶特征空间的编码方法，帮助神经网络捕捉高频信号

\gamma(x) = [\sin(2^0 \pi x), \cos(2^0 \pi x), \ldots, \sin(2^{L-1} \pi x), \cos(2^{L-1} \pi x)]

解决神经网络的频谱偏差（spectral bias）：网络倾向于先学低频，位置编码帮助快速学到高频

Transformer 中用于注入序列位置信息（正弦/余弦编码或 RoPE）

INR 中用于克服 MLP 的高频欠拟合

Tancik et al. 证明随机傅里叶特征（Random Fourier Features）与核回归的等价性

Transformer (Vaswani et al., 2017): 正弦位置编码

NeRF: 将位置编码引入 INR 领域

Big2Small: 使用带 Nyquist 带宽限制的位置编码提升权重重建质量