核方法

分类: 基础理论

核方法

定义

通过核函数隐式地将数据映射到高维(可能无穷维)特征空间,避免显式计算特征映射,利用核技巧(kernel trick)在原始空间中完成高维空间的内积运算

数学形式

κ(x,y)=ϕ(x),ϕ(y)H\kappa(\mathbf{x}, \mathbf{y}) = \langle\phi(\mathbf{x}), \phi(\mathbf{y})\rangle_{\mathcal{H}}

其中 ϕ:XH\phi: \mathcal{X} \to \mathcal{H} 是特征映射,H\mathcal{H} 是再生核 Hilbert 空间(RKHS)。

Softmax 注意力对应的核函数:

κ(x,y)=exp(xyd)\kappa(\mathbf{x}, \mathbf{y}) = \exp\left(\frac{\mathbf{x}\mathbf{y}^\top}{\sqrt{d}}\right)

核心要点

核技巧的核心:无需显式计算 ϕ()\phi(\cdot),只需计算核函数 κ(,)\kappa(\cdot, \cdot)

常见核:RBF/高斯核、多项式核、softmax 核

Mercer 定理保证正定核对应唯一的 RKHS

在 IWP 中,核方法连接了 softmax attention 和 linear attention 的对偶形式

代表工作

IWP: 利用核展开将 softmax attention 重写为对偶形式,推导 token pruning 指标

相关概念

核函数

RKHS

Softmax Attention

Linear Attention