Longformer
分类: 网络架构
Longformer
定义
Longformer 是一种支持长文档处理的 Transformer 变体,通过滑动窗口局部注意力 + 全局注意力的组合实现线性复杂度。
核心要点
滑动窗口注意力处理局部上下文(线性复杂度)
选定的 token(如 [CLS])参与全局注意力
支持最长 4096 token(原始版本)
在长文档理解任务上优于 BERT
代表工作
Beltagy et al., “Longformer: The Long-Document Transformer” (2020)
相关概念
BigBird — 类似的稀疏注意力方案
sparse attention — 通用概念
FlashAttention — 另一种处理长序列的方法