CS224N / 学习笔记

KAN

分类: 网络架构

KAN (Kolmogorov-Arnold Networks)

定义

基于 Kolmogorov-Arnold 表示定理的神经网络架构，用可学习的单变量函数（通常是 B-spline）替代传统 MLP 中的固定激活函数+线性权重

数学形式

KA 表示定理： $f(x_1, \ldots, x_n) = \sum_{q=0}^{2n} \Phi_q\left(\sum_{p=1}^{n} \phi_{q,p}(x_p)\right)$
KAN 层： $\text{KAN}(x) = \sum_i \phi_i(x_i)$ ，其中 $\phi_i$ 是可学习的 B-spline 函数

核心要点

将可学习性从权重矩阵转移到激活函数本身
参数效率理论上优于 MLP（相同精度需要更少参数）
B-spline 的局部性使得量化更友好
目前在大规模任务上尚未证明优势，主要在小规模/科学计算中验证

代表工作

KAN: Liu et al. 2024, 原始 KAN 论文
KANtize: KAN 的低比特量化研究

相关概念