Image Transformer
作者: Niki Parmar, Ashish Vaswani, Jakob Uszkoreit, Lukasz Kaiser, Noam Shazeer, Alexander Ku, Dustin Tran 年份: 2018 会议: ICML 分类: 网络架构
论文笔记:Image-Transformer
一句话总结
- 将 Transformer 架构应用于图像生成任务,通过局部自注意力机制实现像素级自回归建模,在图像生成和超分辨率任务上取得有竞争力的结果。
核心贡献
- 图像领域 Transformer:首次系统性地将 Transformer 的 encoder-decoder 架构应用于条件和无条件图像生成,替代传统的 CNN 自回归模型(如 PixelCNN)
- 局部自注意力(Local Self-Attention):提出 1D 和 2D 局部注意力机制,将每个查询的感受野限制在局部邻域内,将注意力复杂度从 O(n²) 降低到 O(n·m)(m 为局部窗口大小)
- 图像超分辨率:展示 Image Transformer 在超分辨率任务上的应用,利用低分辨率图像作为条件输入生成高分辨率细节
- 对后续工作的影响:为 Vision Transformer (ViT)、DALL-E 等后续视觉 Transformer 奠定了基础,证明注意力机制在视觉任务中的可行性
相关概念
- Transformer
- 自回归模型
- 图像生成
- 局部注意力
- PixelCNN
- Vision Transformer