BinaryAttention

会议: CVPR 2026 分类: 量化与低秩

BinaryAttention: One-Bit QK-Attention for Vision and Diffusion Transformers

核心一句话:将 Transformer 注意力中的 Q、K 二值化为 1-bit(仅保留符号),用 XNOR+popcount 替代浮点点积,配合量化感知训练与自蒸馏,实现比 FlashAttention2 快 2× 且精度持平或更优的高效注意力。

元信息

作者:Chaodong Xiao, Zhengqiang Zhang, Lei Zhang

发表:CVPR 2026

arXiv2603.09582

分类:cs.CV

提交日期:2026-03-10


问题与动机

Transformer 注意力复杂度随序列长度平方增长,在高分辨率视觉任务中计算代价极高

现有量化方案主要停留在 8-bit / 4-bit,尚无实用的 1-bit Q/K 注意力方案

核心问题:能否将 Q、K 压缩到 1-bit,同时保持注意力模式的保真度?


方法:BinaryAttention

理论基础(Theorem 1)

q,k\mathbf{q}, \mathbf{k} 是零均值高斯向量,令 s=sign(q)\mathbf{s} = \text{sign}(\mathbf{q})t=sign(k)\mathbf{t} = \text{sign}(\mathbf{k}),则:

E[st]=2πarcsin(C)\mathbb{E}[\mathbf{s}\mathbf{t}^\top] = \frac{2}{\pi} \arcsin(\mathbf{C})

其中 C\mathbf{C} 为原始 Q、K 的协方差矩阵。结论:二值化保留了 Q、K 的本质相似性结构。

三大核心组件

1. 带缩放因子的二值表示(Scaled Binary Representations)

si=μqsign(qi),tj=μksign(kj)s_i = \mu_q \cdot \text{sign}(\mathbf{q}_i), \quad t_j = \mu_k \cdot \text{sign}(\mathbf{k}_j)

点积相似度变为:

sitj=μqμksign(qi)sign(kj)s_i^\top t_j = \mu_q \cdot \mu_k \cdot \text{sign}(\mathbf{q}_i)^\top \text{sign}(\mathbf{k}_j)

硬件实现:XNOR + popcount 位运算替代浮点乘加。

2. 偏置增强(Bias Enhancement)

为抑制 1-bit 量化导致的注意力分布坍塌,引入偏置项:

Sij=μqμksitjd+bijS_{ij} = \frac{\mu_q \cdot \mu_k \cdot s_i^\top t_j}{\sqrt{d}} + b_{ij}

偏置 bijb_{ij} 可以是:

可学习稠密矩阵(dense learnable)

位置感知 / 上下文感知矩阵

3. 混合精度量化(Hybrid Quantization)

分量精度量化方案
Q, K1-bitsign + 缩放因子
注意力系数 PijP_{ij}8-bit (unsigned)静态缩放 1/2551/255
V8-bit逐通道量化

最终输出:

yi=jδv255P~ijv~jy_i = \sum_j \frac{\delta_v}{255} \cdot \tilde{P}_{ij} \cdot \tilde{v}_j

训练策略

量化感知训练(QAT):直通估计器(STE)处理符号函数梯度

自蒸馏(Self-Distillation):以全精度 attention 输出为软标签,指导二值化模型,抑制量化误差引发的分布偏移


实验

图像分类(ImageNet-1K)

模型分辨率Top-1 AccOPs
DeiT-T224²72.2%1.2G
BinaryAttention-T224²72.88%1.1G
DeiT-S224²79.8%4.6G
BinaryAttention-S224²80.24%4.3G
DeiT-B384²83.1%55.4G
BinaryAttention-B384²83.64%50.2G

与 PTQ4ViT 结合:BinaryAttention-B 达到 83.55%,OPs 仅 13.5G

目标检测(COCO 2017,Mask R-CNN 骨干)

BinaryAttention-B:Box AP 48.28(+0.29 vs DeiT-B),OPs 减少 100G

语义分割(ADE20K)

BinaryAttention-B:单尺度 mIoU 47.76(+0.90 vs DeiT-B),OPs 减少 270G

图像生成(DiT on ImageNet 256×256)

模型FID (cfg=1.5)训练步数OPs
DiT-S/243.87400K6.1G
BinaryAttention-S/238.96200K5.5G

BinaryAttention 以一半训练步数取得更低 FID,说明二值化注意力反而有一定正则化效果。

速度基准(A100 GPU)

vs FlashAttention2:>2× 加速

1024×1024 分辨率下:1.5× 快于 FlashAttention21.3× 快于 SageAttention


消融实验

组件影响
去除缩放因子 μq,μk\mu_q, \mu_k精度下降 -0.25% ~ -0.70%
去除偏置增强小模型下降 0.27~0.44%
去除自蒸馏DeiT-B 下降 0.66%(大模型影响更显著)

注意力模式保真度(Table 6):

余弦相似度 > 0.87

Precision ≈ 0.75

说明二值化注意力与全精度注意力高度一致。


与我的研究的关联

量化视角:1-bit Q/K 是极端低比特量化,与我关注的 5-量化与低秩 方向直接相关

自蒸馏:本文用全精度 attention 蒸馏二值化 attention,是自蒸馏在量化场景的典型应用;与模型增长中的蒸馏策略(模型增长)有交叉

高效 Transformer:减少 attention 计算开销,与 token pruning / sparse attention 类方法目标一致,可作为 backbone 加速手段

局限性:仅压缩 QK 点积部分,PV 仍用 8-bit;MLP 量化未探索——有后续研究空间


关键结论

  1. 理论保证:二值化 Q、K 在高斯假设下保留协方差结构,是方法可行的数学基础
  2. 实用性:无需改变网络架构,可作为即插即用加速模块
  3. 反直觉:1-bit 量化不仅不掉点,在多数任务上略微超越全精度基线
  4. 扩散模型也适用:BinaryAttention 在 DiT 上效果更优,说明泛化性强

参考

GPTQ

模型增长

FlashAttention2 / SageAttention(对比基线)

PTQ4ViT(组合使用)