BinaryAttention

会议: CVPR 2026 分类: 量化与低秩

BinaryAttention: One-Bit QK-Attention for Vision and Diffusion Transformers

核心一句话：将 Transformer 注意力中的 Q、K 二值化为 1-bit（仅保留符号），用 XNOR+popcount 替代浮点点积，配合量化感知训练与自蒸馏，实现比 FlashAttention2 快 2× 且精度持平或更优的高效注意力。

元信息

作者：Chaodong Xiao, Zhengqiang Zhang, Lei Zhang

发表：CVPR 2026

arXiv：2603.09582

分类：cs.CV

提交日期：2026-03-10

问题与动机

Transformer 注意力复杂度随序列长度平方增长，在高分辨率视觉任务中计算代价极高

现有量化方案主要停留在 8-bit / 4-bit，尚无实用的 1-bit Q/K 注意力方案

核心问题：能否将 Q、K 压缩到 1-bit，同时保持注意力模式的保真度？

方法：BinaryAttention

理论基础（Theorem 1）

若 $\mathbf{q}, \mathbf{k}$ 是零均值高斯向量，令 $\mathbf{s} = \text{sign}(\mathbf{q})$ ， $\mathbf{t} = \text{sign}(\mathbf{k})$ ，则：

$\mathbb{E}[\mathbf{s}\mathbf{t}^\top] = \frac{2}{\pi} \arcsin(\mathbf{C})$

其中 $\mathbf{C}$ 为原始 Q、K 的协方差矩阵。结论：二值化保留了 Q、K 的本质相似性结构。

三大核心组件

1. 带缩放因子的二值表示（Scaled Binary Representations）

$s_i = \mu_q \cdot \text{sign}(\mathbf{q}_i), \quad t_j = \mu_k \cdot \text{sign}(\mathbf{k}_j)$

点积相似度变为：

$s_i^\top t_j = \mu_q \cdot \mu_k \cdot \text{sign}(\mathbf{q}_i)^\top \text{sign}(\mathbf{k}_j)$

硬件实现：XNOR + popcount 位运算替代浮点乘加。

2. 偏置增强（Bias Enhancement）

为抑制 1-bit 量化导致的注意力分布坍塌，引入偏置项：

$S_{ij} = \frac{\mu_q \cdot \mu_k \cdot s_i^\top t_j}{\sqrt{d}} + b_{ij}$

偏置 $b_{ij}$ 可以是：

可学习稠密矩阵（dense learnable）

位置感知 / 上下文感知矩阵

3. 混合精度量化（Hybrid Quantization）

分量	精度	量化方案
Q, K	1-bit	sign + 缩放因子
注意力系数 $P_{ij}$	8-bit (unsigned)	静态缩放 $1/255$
V	8-bit	逐通道量化

最终输出：

$y_i = \sum_j \frac{\delta_v}{255} \cdot \tilde{P}_{ij} \cdot \tilde{v}_j$

训练策略

量化感知训练（QAT）：直通估计器（STE）处理符号函数梯度

自蒸馏（Self-Distillation）：以全精度 attention 输出为软标签，指导二值化模型，抑制量化误差引发的分布偏移

实验

图像分类（ImageNet-1K）

模型	分辨率	Top-1 Acc	OPs
DeiT-T	224²	72.2%	1.2G
BinaryAttention-T	224²	72.88%	1.1G
DeiT-S	224²	79.8%	4.6G
BinaryAttention-S	224²	80.24%	4.3G
DeiT-B	384²	83.1%	55.4G
BinaryAttention-B	384²	83.64%	50.2G

与 PTQ4ViT 结合：BinaryAttention-B 达到 83.55%，OPs 仅 13.5G。

目标检测（COCO 2017，Mask R-CNN 骨干）

BinaryAttention-B：Box AP 48.28（+0.29 vs DeiT-B），OPs 减少 100G

语义分割（ADE20K）

BinaryAttention-B：单尺度 mIoU 47.76（+0.90 vs DeiT-B），OPs 减少 270G

图像生成（DiT on ImageNet 256×256）

模型	FID (cfg=1.5)	训练步数	OPs
DiT-S/2	43.87	400K	6.1G
BinaryAttention-S/2	38.96	200K	5.5G

BinaryAttention 以一半训练步数取得更低 FID，说明二值化注意力反而有一定正则化效果。

速度基准（A100 GPU）

vs FlashAttention2：>2× 加速

1024×1024 分辨率下：1.5× 快于 FlashAttention2，1.3× 快于 SageAttention

消融实验

组件	影响
去除缩放因子 $\mu_q, \mu_k$	精度下降 -0.25% ~ -0.70%
去除偏置增强	小模型下降 0.27~0.44%
去除自蒸馏	DeiT-B 下降 0.66%（大模型影响更显著）

注意力模式保真度（Table 6）：

余弦相似度 > 0.87

Precision ≈ 0.75

说明二值化注意力与全精度注意力高度一致。

与我的研究的关联

量化视角：1-bit Q/K 是极端低比特量化，与我关注的 5-量化与低秩方向直接相关

自蒸馏：本文用全精度 attention 蒸馏二值化 attention，是自蒸馏在量化场景的典型应用；与模型增长中的蒸馏策略（模型增长）有交叉

高效 Transformer：减少 attention 计算开销，与 token pruning / sparse attention 类方法目标一致，可作为 backbone 加速手段

局限性：仅压缩 QK 点积部分，PV 仍用 8-bit；MLP 量化未探索——有后续研究空间

关键结论

理论保证：二值化 Q、K 在高斯假设下保留协方差结构，是方法可行的数学基础
实用性：无需改变网络架构，可作为即插即用加速模块
反直觉：1-bit 量化不仅不掉点，在多数任务上略微超越全精度基线
扩散模型也适用：BinaryAttention 在 DiT 上效果更优，说明泛化性强

参考

GPTQ

模型增长

FlashAttention2 / SageAttention（对比基线）

PTQ4ViT（组合使用）