BigBird

分类: 网络架构

BigBird

定义

BigBird 是 Google 提出的稀疏注意力 Transformer,结合随机注意力、滑动窗口注意力和全局注意力三种模式实现线性复杂度。

核心要点

三种注意力模式的组合:random + window + global

理论证明稀疏注意力是序列函数的通用逼近器

支持最长 4096 token

在问答和摘要等长文档任务上表现优异

代表工作

Zaheer et al., “Big Bird: Transformers for Longer Sequences” (NeurIPS 2020)

相关概念

Longformer — 类似的长文档 Transformer

sparse attention — 通用概念