KAN

分类: 网络架构

KAN (Kolmogorov-Arnold Networks)

定义

  • 基于 Kolmogorov-Arnold 表示定理的神经网络架构,用可学习的单变量函数(通常是 B-spline)替代传统 MLP 中的固定激活函数+线性权重

数学形式

  • KA 表示定理:f(x1,,xn)=q=02nΦq(p=1nϕq,p(xp))f(x_1, \ldots, x_n) = \sum_{q=0}^{2n} \Phi_q\left(\sum_{p=1}^{n} \phi_{q,p}(x_p)\right)
  • KAN 层:KAN(x)=iϕi(xi)\text{KAN}(x) = \sum_i \phi_i(x_i),其中 ϕi\phi_i 是可学习的 B-spline 函数

核心要点

  • 将可学习性从权重矩阵转移到激活函数本身
  • 参数效率理论上优于 MLP(相同精度需要更少参数)
  • B-spline 的局部性使得量化更友好
  • 目前在大规模任务上尚未证明优势,主要在小规模/科学计算中验证

代表工作

  • KAN: Liu et al. 2024, 原始 KAN 论文
  • KANtize: KAN 的低比特量化研究

相关概念