Longformer

分类: 网络架构

Longformer

定义

Longformer 是一种支持长文档处理的 Transformer 变体,通过滑动窗口局部注意力 + 全局注意力的组合实现线性复杂度。

核心要点

滑动窗口注意力处理局部上下文(线性复杂度)

选定的 token(如 [CLS])参与全局注意力

支持最长 4096 token(原始版本)

在长文档理解任务上优于 BERT

代表工作

Beltagy et al., “Longformer: The Long-Document Transformer” (2020)

相关概念

BigBird — 类似的稀疏注意力方案

sparse attention — 通用概念

FlashAttention — 另一种处理长序列的方法