BigBird
分类: 网络架构
BigBird
定义
BigBird 是 Google 提出的稀疏注意力 Transformer,结合随机注意力、滑动窗口注意力和全局注意力三种模式实现线性复杂度。
核心要点
三种注意力模式的组合:random + window + global
理论证明稀疏注意力是序列函数的通用逼近器
支持最长 4096 token
在问答和摘要等长文档任务上表现优异
代表工作
Zaheer et al., “Big Bird: Transformers for Longer Sequences” (NeurIPS 2020)
相关概念
Longformer — 类似的长文档 Transformer
sparse attention — 通用概念