SwinIR

分类: 视觉任务

SwinIR

定义

SwinIR 是基于 Swin Transformer 的图像复原模型,将 Swin Transformer 的窗口注意力机制应用于图像超分辨率、去噪、JPEG 压缩伪影去除等低层视觉任务

核心要点

使用 Residual Swin Transformer Block (RSTB) 作为基本构建单元

窗口注意力 + 移位窗口策略平衡全局感受野和计算效率

相比 CNN 方法(如 EDSR)在多个图像复原任务上取得更好性能

模型参数量和计算量显著小于同性能的 CNN 方法

代表工作

Liang et al., “SwinIR: Image Restoration Using Swin Transformer” (ICCVW 2021)

相关概念

EDSR — CNN 时代的代表性超分方法

ViT — Vision Transformer 基础架构