Positional Encoding

分类: 深度学习基础

Positional Encoding

定义

将低维输入坐标投射到高维傅里叶特征空间的编码方法,帮助神经网络捕捉高频信号

数学形式

γ(x)=[sin(20πx),cos(20πx),,sin(2L1πx),cos(2L1πx)]\gamma(x) = [\sin(2^0 \pi x), \cos(2^0 \pi x), \ldots, \sin(2^{L-1} \pi x), \cos(2^{L-1} \pi x)]

核心要点

解决神经网络的频谱偏差(spectral bias):网络倾向于先学低频,位置编码帮助快速学到高频

Transformer 中用于注入序列位置信息(正弦/余弦编码或 RoPE

INR 中用于克服 MLP 的高频欠拟合

Tancik et al. 证明随机傅里叶特征(Random Fourier Features)与核回归的等价性

代表工作

Transformer (Vaswani et al., 2017): 正弦位置编码

NeRF: 将位置编码引入 INR 领域

Big2Small: 使用带 Nyquist 带宽限制的位置编码提升权重重建质量

相关概念

RoPE

Implicit Neural Representation

SIREN