DeltaNet

分类: 网络架构

DeltaNet

定义

一种线性注意力模型,通过 delta 更新规则维护隐状态,以线性复杂度处理序列,但存在有损压缩和灾难性遗忘问题

核心要点

线性复杂度 O(L)\mathcal{O}(L),适合长序列

通过差分更新规则(delta rule)维护固定大小的隐状态矩阵

缺点:有损压缩导致精度较低,长期记忆能力有限

代表工作

MSA: 在 Table 1 中作为线性注意力方法的代表与 MSA 对比,精度低且存在灾难性遗忘

相关概念

RWKV

sparse attention

Self-Attention