Image Transformer

作者: Niki Parmar, Ashish Vaswani, Jakob Uszkoreit, Lukasz Kaiser, Noam Shazeer, Alexander Ku, Dustin Tran 年份: 2018 会议: ICML 分类: 网络架构

论文笔记：Image-Transformer

图像领域 Transformer：首次系统性地将 Transformer 的 encoder-decoder 架构应用于条件和无条件图像生成，替代传统的 CNN 自回归模型（如 PixelCNN）
局部自注意力（Local Self-Attention）：提出 1D 和 2D 局部注意力机制，将每个查询的感受野限制在局部邻域内，将注意力复杂度从 O(n²) 降低到 O(n·m)（m 为局部窗口大小）
图像超分辨率：展示 Image Transformer 在超分辨率任务上的应用，利用低分辨率图像作为条件输入生成高分辨率细节
对后续工作的影响：为 Vision Transformer (ViT)、DALL-E 等后续视觉 Transformer 奠定了基础，证明注意力机制在视觉任务中的可行性