DeltaNet
分类: 网络架构
DeltaNet
定义
一种线性注意力模型,通过 delta 更新规则维护隐状态,以线性复杂度处理序列,但存在有损压缩和灾难性遗忘问题
核心要点
线性复杂度 ,适合长序列
通过差分更新规则(delta rule)维护固定大小的隐状态矩阵
缺点:有损压缩导致精度较低,长期记忆能力有限
代表工作
MSA: 在 Table 1 中作为线性注意力方法的代表与 MSA 对比,精度低且存在灾难性遗忘
分类: 网络架构
一种线性注意力模型,通过 delta 更新规则维护隐状态,以线性复杂度处理序列,但存在有损压缩和灾难性遗忘问题
线性复杂度 ,适合长序列
通过差分更新规则(delta rule)维护固定大小的隐状态矩阵
缺点:有损压缩导致精度较低,长期记忆能力有限
MSA: 在 Table 1 中作为线性注意力方法的代表与 MSA 对比,精度低且存在灾难性遗忘