Beyond Outliers: A Data-Free Layer-wise Mixed-Precision Quantization Approach

作者: Hengyuan Zhang, Xinrong Chen, Zunhai Su, Xiao Liang, Jing Xiong, Wendong Xu, He Xiao, Chaofan Tao, Wei Zhang, Ruobing Xie, Lei Jiang, Hayden Kwok-Hay So, Ngai Wong 年份: 2025 会议: arXiv 分类: 量化与低秩

论文笔记:Beyond Outliers: A Data-Free Layer-wise Mixed-Precision Quantization Approach

元信息

项目内容
机构The University of Hong Kong, Peking University, Tsinghua University, UCLA, Tencent
日期March 2025
项目主页-
对比基线GPTQ, AWQ, SmoothQuant, HQQ, SliM-LLM
链接arXiv / Code

一句话总结

提出 NSDS,一种无需校准数据的层级混合精度量化框架,从数值脆弱性和结构表达力双视角评估层敏感度,并通过机制性组件分解实现角色感知的精度分配。

核心贡献

Numerical & Structural Dual-Sensitivity: 首次从数值(outlier)和结构(谱特性)两个互补视角评估量化敏感度,揭示了”低数值敏感但高结构敏感的层仍然会严重退化”的现象

机制性组件分解: 首次将 机制可解释性 引入量化敏感度估计,将 Transformer 层分解为 Detector(检测器)和 Writer(写入器)两类功能角色,分配角色特定的敏感度度量

MAD-Sigmoid + Soft-OR 聚合: 设计鲁棒的分数聚合方案,避免简单平均导致的敏感度信号被稀释,在无校准数据条件下持续超越现有方法

问题背景

要解决的问题

在极低比特(2-4 bit)条件下,如何无需校准数据地为 LLM 的每一层分配最优量化精度(即 Layer-wise Mixed-Precision Quantization, LMPQ)

现有方法的局限

校准依赖方法(如 AWQ, GPTQ):需要代表性校准数据集,存在对特定数据分布过拟合的风险

现有无校准方法(如 HQQ, EWQ):仅使用单一数值指标(如 MSE、outlier 幅度),忽略权重的结构信息;且将层内所有模块统一对待,忽略不同权重矩阵的功能差异

仅关注 outlier 的方法无法捕获”数值上平稳但结构上关键”的层

本文的动机

观察到 excess kurtosis(衡量 outlier 严重度)和 奇异值分解 谱特性(衡量结构表达力)对量化敏感度提供了互补信息

Transformer 层内不同权重矩阵扮演不同角色(QK 做注意力检测 vs OV 做信息写入),应赋予不同的敏感度评估策略

方法详解

整体框架

NSDS 框架包含三个阶段:

  1. 机制性层分解:将每层分解为 Detector 和 Writer 两类组件
  2. 双视角敏感度估计:从数值脆弱性(NV)和结构表达力(SE)两个角度评估每个组件
  3. 鲁棒聚合与比特分配:通过 MAD-Sigmoid 归一化 + Soft-OR 操作聚合为层级敏感度分数,指导比特分配

模块 1: 机制性层分解

设计动机: 基于 机制可解释性 研究,Transformer 层中不同权重矩阵具有截然不同的功能角色

Multi-Head Attention 分解:

  • 将 MHA 重写为两个复合矩阵:WQK(l,h)=WQ(l,h)WK(l,h)W_{QK}^{(l,h)} = W_Q^{(l,h)} W_K^{(l,h)\top}WOV(l,h)=WV(l,h)WO(l,h)W_{OV}^{(l,h)} = W_V^{(l,h)} W_O^{(l,h)}
  • WQKW_{QK} 控制注意力模式(哪些 token 关注哪些 token)
  • WOVW_{OV} 控制信息传递(从关注的 token 提取并写回什么信息)

FFN 分解:

  • WinW_{in}:输入投影,决定激活哪些神经元(检测模式)
  • WoutW_{out}:输出投影,将激活信息写回残差流

角色分类:

  • Detector(检测器): WQKW_{QK}WinW_{in}——计算注意力或神经元激活模式
  • Writer(写入器): WOVW_{OV}WoutW_{out}——将信息处理后写回残差流

模块 2: 数值脆弱性(Numerical Vulnerability, NV)

设计动机: 权重中的 outlier 会在量化时导致严重的精度损失,Excess Kurtosis 能直接量化 outlier 的严重程度

具体实现: 对每个组件的权重矩阵展平后计算 excess kurtosis κ(w)\kappa(w)

高 kurtosis 意味着权重分布具有重尾特征,量化截断误差大

模块 3: 结构表达力(Structural Expressiveness, SE)

设计动机: 即使数值上没有极端 outlier,权重矩阵的 奇异值 结构如果被量化破坏,也会导致性能退化

基础表达力:

  • 通过 SVD 分解权重矩阵 W=UΣVW = U\Sigma V^\top,利用奇异值 σ=[σ1,,σk]\sigma = [\sigma_1, \dots, \sigma_k] 计算:
    • 谱幅度 σ1\|\sigma\|_1:衡量整体信息容量
    • 谱熵 H(σ)H(\sigma):衡量信息分布的均匀程度
  • 基础表达力 Ebase=σ1×exp(H(σ))\mathcal{E}_{base} = \|\sigma\|_1 \times \exp(H(\sigma))

角色感知重加权:

  • Detection Specificity(面向 Detector):用右奇异向量 viv_i 的 kurtosis 作为重加权因子 βDS(i)=κ(vi)\beta_{DS}^{(i)} = \kappa(v_i),捕获检测模式的尖锐程度
  • Writing Density(面向 Writer):用左奇异向量 uiu_i 在 unembedding 矩阵上的投影 βWD(i)=WUui1\beta_{WD}^{(i)} = \|W_U^\top u_i\|_1,衡量该方向对词表分布的影响密度
  • 重加权后得到角色感知表达力 Erole\mathcal{E}_{role}

模块 4: MAD-Sigmoid 归一化与 Soft-OR 聚合

MAD-Sigmoid 归一化: 使用中位数绝对偏差(MAD)替代标准差,对 outlier 分数本身更鲁棒

Soft-OR 聚合: 避免简单平均稀释敏感信号,只要一个组件高度敏感,整层即被标记为敏感

最终层级分数 SlNSDS=Soft-OR(SlNV,SlSE)S_l^{NSDS} = \text{Soft-OR}(S_l^{NV}, S_l^{SE})

比特分配策略

给定目标平均比特预算 bˉ[2,4]\bar{b} \in [2, 4],计算比例 ρ=(bˉ2)/(42)\rho = (\bar{b} - 2) / (4 - 2)

SlNSDSS_l^{NSDS} 从高到低排序,前 L4=round(ρL)L_4 = \text{round}(\rho \cdot L) 层分配 4-bit,其余分配 2-bit

关键公式

公式 1: 注意力机制分解

Attn(l,h)(X(l1))=softmax ⁣(X(l1)WQK(l,h)X(l1)dhead)X(l1)WOV(l,h)\text{Attn}^{(l,h)}(X^{(l-1)}) = \text{softmax}\!\left(\frac{X^{(l-1)} W_{QK}^{(l,h)} X^{(l-1)\top}}{\sqrt{d_{head}}}\right) \cdot X^{(l-1)} W_{OV}^{(l,h)}

含义: 将注意力操作分解为检测(QK)和写入(OV)两个独立的功能组件

符号说明:

  • WQK(l,h)=WQ(l,h)WK(l,h)W_{QK}^{(l,h)} = W_Q^{(l,h)} W_K^{(l,h)\top}: 第 ll 层第 hh 个头的注意力模式矩阵
  • WOV(l,h)=WV(l,h)WO(l,h)W_{OV}^{(l,h)} = W_V^{(l,h)} W_O^{(l,h)}: 第 ll 层第 hh 个头的信息传递矩阵
  • dheadd_{head}: 每个头的维度

公式 2: 前馈网络

FFN(l)(Xmid(l))=σ(Xmid(l)Win(l))Wout(l)\text{FFN}^{(l)}(X_{mid}^{(l)}) = \sigma(X_{mid}^{(l)} W_{in}^{(l)}) W_{out}^{(l)}

含义: FFN 分解为输入投影(检测)和输出投影(写入)

符号说明:

  • Win(l)Rdmodel×dffnW_{in}^{(l)} \in \mathbb{R}^{d_{model} \times d_{ffn}}: 输入投影矩阵(Detector)
  • Wout(l)Rdffn×dmodelW_{out}^{(l)} \in \mathbb{R}^{d_{ffn} \times d_{model}}: 输出投影矩阵(Writer)
  • σ\sigma: 激活函数

公式 3: 超额峰度

κ(w)=E[(wμ)4](E[(wμ)2])23\kappa(w) = \frac{\mathbb{E}[(w - \mu)^4]}{(\mathbb{E}[(w - \mu)^2])^2} - 3

含义: 衡量权重分布的重尾程度,κ>0\kappa > 0 表示存在异常大的 outlier,量化时截断误差更大

符号说明:

  • ww: 展平后的权重向量
  • μ\mu: 权重均值
  • 3-3: 减去正态分布的峰度,使正态分布对应 κ=0\kappa = 0

公式 4: 结构表达力

Ebase=σ1×exp(H(σ))\mathcal{E}_{base} = \|\sigma\|_1 \times \exp(H(\sigma))

含义: 综合奇异值的总能量和分布均匀性来衡量权重矩阵的结构表达能力

符号说明:

  • σ1=iσi\|\sigma\|_1 = \sum_i \sigma_i: 谱幅度,衡量总信息容量
  • H(σ)=ipilogpiH(\sigma) = -\sum_i p_i \log p_i: 谱熵,其中 pi=σi/jσjp_i = \sigma_i / \sum_j \sigma_j

公式 5: Detection Specificity 重加权

βDS(i)=κ(vi)\beta_{DS}^{(i)} = \kappa(v_i)

含义: 对 Detector 组件,用右奇异向量的峰度作为角色特定重加权因子,捕获检测模式的尖锐程度

符号说明:

  • viv_i: 第 ii 个右奇异向量

公式 6: Writing Density 重加权

βWD(i)=WUui1\beta_{WD}^{(i)} = \|W_U^\top u_i\|_1

含义: 对 Writer 组件,衡量左奇异向量在 unembedding 空间的投影密度,反映该方向对词表预测的影响范围

符号说明:

  • uiu_i: 第 ii 个左奇异向量
  • WUW_U: unembedding 矩阵

公式 7: MAD-Sigmoid 归一化

z(l,c)=r(l,c)Median(R)1.4826MAD(R)+εz^{(l,c)} = \frac{r^{(l,c)} - \text{Median}(\mathcal{R})}{1.4826 \cdot \text{MAD}(\mathcal{R}) + \varepsilon} P(l,c)=11+exp(z(l,c))\mathcal{P}^{(l,c)} = \frac{1}{1 + \exp(-z^{(l,c)})}

含义: 用 MAD(中位数绝对偏差)替代标准差做鲁棒 Z-score 归一化,再映射到 (0,1)(0,1) 概率空间

符号说明:

  • MAD(R)=Median(r(l,c)Median(R))\text{MAD}(\mathcal{R}) = \text{Median}(|r^{(l,c)} - \text{Median}(\mathcal{R})|)
  • 1.48261.4826: 使 MAD 在正态分布下与标准差一致的缩放因子
  • ε\varepsilon: 防止除零的小常数

公式 8: Soft-OR 聚合

Soft-OR({Pi})=1i(1Pi)\text{Soft-OR}(\{\mathcal{P}_i\}) = 1 - \prod_i (1 - \mathcal{P}_i)

含义: 类似概率论中独立事件”至少一个发生”的概率,只要有一个组件高度敏感,整层即被标记为高敏感

符号说明:

  • Pi(0,1)\mathcal{P}_i \in (0,1): 各组件的归一化敏感度分数

公式 9: 最终层敏感度

SlNSDS=Soft-OR(SlNV,SlSE)S_l^{NSDS} = \text{Soft-OR}(S_l^{NV}, S_l^{SE})

含义: 融合数值脆弱性和结构表达力两个维度的层级敏感度

符号说明:

  • SlNV=Soft-OR({PNV(l,c)})S_l^{NV} = \text{Soft-OR}(\{P_{NV}^{(l,c)}\}): 数值敏感度
  • SlSE=Soft-OR({PSE(l,c)})S_l^{SE} = \text{Soft-OR}(\{P_{SE}^{(l,c)}\}): 结构敏感度

公式 10: 比特分配

L4=round(ρL),ρ=bˉ242L_4 = \text{round}(\rho \cdot L), \quad \rho = \frac{\bar{b} - 2}{4 - 2}

含义: 根据目标平均比特预算,按敏感度排序分配 4-bit 和 2-bit

符号说明:

  • bˉ\bar{b}: 目标平均比特预算
  • LL: 总层数
  • L4L_4: 分配 4-bit 的层数

关键图表

Figure 1: 层级敏感度可视化

Figure 1: Layer-wise sensitivity{:width 600}

说明: 在两个 LLM 上展示层级敏感度。每个点代表一层,颜色越深表示量化该层后困惑度退化(Δ\DeltaPPL)越严重。关键发现:存在数值 outlier 不严重但结构敏感度高的层,仅靠 outlier 指标无法识别这些关键层。

Figure 2: NSDS 框架概览

Figure 2: NSDS framework overview{:width 600}

说明: NSDS 框架全流程。左侧展示层的机制性分解为 Detector 和 Writer 组件;中间分别计算数值脆弱性(NV)和结构表达力(SE);右侧通过 MAD-Sigmoid 归一化和 Soft-OR 聚合得到统一的层级敏感度分数。

Figure 3: 不同比特预算下的平均准确率

Figure 3: Average accuracy across bit budgets{:width 600}

说明: NSDS 与基线方法在 Llama-3.1-8B 和 Qwen2.5-7B 上不同比特预算下的表现。关键发现:在低比特预算(2.6 bits)下,竞争方法性能急剧下降,而 NSDS 保持稳定。

Figure 4: 消融分析

Figure 4: Ablation analysis{:width 600}

说明: 逐一去除 NSDS 各组件后的平均准确率变化。验证了数值和结构双视角、角色感知重加权、MAD-Sigmoid 和 Soft-OR 各组件的必要性。

Figure 5: 与校准依赖方法的对比

Figure 5: Calibration-based comparison{:width 600}

说明: NSDS(无校准数据)与校准依赖基线方法在通用推理 benchmark 上的对比。NSDS 在无需校准数据的条件下达到与校准方法竞争甚至更优的性能。

Figure 6: PTQ 后端集成

Figure 6: PTQ backend integration{:width 600}

说明: 将 NSDS 与不同 PTQ 后端(HQQ, GPTQ)集成的效果,对比 SliM-LLM。NSDS 作为精度分配策略可以正交地增强不同量化后端。

Table 1: 语言推理与建模 Benchmark 主实验(2.6-bit)

ModelMethodARC-C ↑HellaSwag ↑PIQA ↑BoolQ ↑WinoGrande ↑TruthfulQA ↑Wikitext-2 ↓C4 ↓
Llama-3.1-8BFP1657.7681.9780.0982.1177.3528.406.248.95
MSE38.7364.2168.5860.7365.8223.959.2212.35
EWQ40.1767.1671.4964.5267.4323.348.3811.27
ZD39.4566.9469.6362.8867.5124.498.4211.51
KurtBoost41.8768.2270.7667.7669.6925.157.7410.65
NSDS43.1669.6773.3166.8972.2826.437.259.97
Qwen2.5-7BFP1663.8280.2278.7384.6576.0139.056.8510.44
MSE53.6867.3572.9269.8565.1827.8211.6514.22
EWQ51.8567.5272.1067.9664.3526.9511.4814.05
ZD55.8270.4573.0172.9565.2528.949.2312.15
KurtBoost54.2569.9272.4870.4065.7228.359.8413.68
NSDS57.0871.5675.2573.1868.5631.158.6111.83

说明: 在 2.6-bit 平均精度下,NSDS 在所有 benchmark 上全面超越其他无校准基线。Llama-3.1-8B 上 ARC-C 比最强基线 KurtBoost 高 1.29%,Qwen2.5-7B 上更是高 2.83%。

Table 2: 大模型结果(13B-14B)

ModelMetricFP16MSEEWQZDKurtBoostNSDS
Llama-2-13BAcc. ↑67.2359.9161.6860.9962.0863.01
PPL ↓5.679.387.617.987.517.11
Qwen2.5-14BAcc. ↑73.2564.2963.3665.4265.1366.15
PPL ↓7.2210.6211.1310.2510.419.96

说明: 在更大模型上 NSDS 依然保持优势,Llama-2-13B 准确率比 KurtBoost 高 0.93%,困惑度低 0.40。

实验

评估基准

基准类型指标
ARC-Challenge推理准确率 ↑
HellaSwag常识推理准确率 ↑
PIQA物理推理准确率 ↑
BoolQ阅读理解准确率 ↑
WinoGrande代词消解准确率 ↑
TruthfulQA真实性准确率 ↑
Wikitext-2语言建模困惑度 ↓
C4语言建模困惑度 ↓

模型

模型参数量系列
Llama-3.1-8B8BLlama
Llama-2-13B13BLlama
Qwen2.5-7B7BQwen
Qwen2.5-14B14BQwen

实现细节

量化后端: HQQ(默认), GPTQ

比特配置: 2-bit / 4-bit 混合,平均 2.6-bit

无需校准数据: 所有敏感度估计仅基于模型权重本身

SVD 截断: 仅使用前 kk 个奇异值以提高效率

关键实验发现

低比特预算优势明显: 在 2.6-bit 时 NSDS 优势最大,说明双视角敏感度在极端压缩下更为关键

跨模型鲁棒性: 在 Llama 和 Qwen 两个截然不同的模型系列上均保持领先

正交性: 与不同 PTQ 后端(HQQ, GPTQ)结合均能提升性能

消融验证: 去除任何一个组件(NV、SE、角色感知、MAD-Sigmoid、Soft-OR)都会导致性能下降

批判性思考

优点

无需校准数据: 避免了校准数据选择偏差和过拟合问题,部署更简便

理论动机清晰: 从机制可解释性出发的 Detector/Writer 分解有坚实的理论支撑

设计精巧: MAD-Sigmoid 处理 outlier 分数本身的 outlier,Soft-OR 避免敏感信号被稀释,每个设计选择都有明确的理由

正交可组合: 作为精度分配策略,可以与任意 PTQ 量化后端组合

局限性

仅 2-bit/4-bit 二档: 比特分配粒度较粗,未探索更细粒度的混合精度(如 2/3/4/8-bit)

模型规模有限: 实验仅覆盖到 14B,未验证 30B/70B+ 模型上的效果,作者也承认大模型上敏感度模式可能不同

SVD 计算开销: 对每个权重矩阵做 SVD 分解在超大模型上可能带来不可忽视的额外计算

仅限 weight-only 量化: 未考虑 activation 量化的敏感度

潜在改进方向

扩展到更细粒度的比特分配(连续比特优化 / ILP 求解)

引入 activation 统计信息(如 SmoothQuant 的思路)形成更完整的敏感度评估

在超大模型(70B+)上验证并可能需要自适应的 SVD 截断策略

探索 block-wise 或 channel-wise 混合精度而非 layer-wise

可复现性评估

  • 代码开源(https://github.com/rattlesnakey/NSDS)
  • 预训练模型(使用公开 LLM,无需额外预训练)
  • 训练细节完整(无训练过程,仅权重分析)
  • 数据集可获取(公开 benchmark)

关联笔记

基于

GPTQ: 校准依赖的 PTQ 基线,NSDS 可作为其精度分配前端

AWQ: 基于激活感知的权重量化,代表校准依赖方法

HQQ: Half-Quadratic Quantization,NSDS 的默认量化后端

对比

SliM-LLM: 校准依赖的 LMPQ 方法,NSDS 的主要对比对象

SmoothQuant: 激活-权重平滑量化,处理 outlier 的另一范式

方法相关

混合精度: 核心方法——层级混合精度量化

PTQ: 后训练量化框架

SVD: 结构表达力分析的数学工具

Excess Kurtosis: 数值脆弱性的核心度量

Mechanistic Interpretability: Detector/Writer 分解的理论基础

MAD-Sigmoid: 鲁棒归一化方案

Soft-OR: 敏感度聚合运算

硬件/数据相关

Wikitext-2: 语言建模评估基准

HellaSwag: 常识推理评估基准

速查卡片

Beyond Outliers: A Data-Free Layer-wise Mixed-Precision Quantization Approach

  • 核心: 无校准数据的层级混合精度量化,从数值和结构双视角评估敏感度
  • 方法: 机制性分解(Detector/Writer)+ Excess Kurtosis(NV)+ SVD 谱分析(SE)+ MAD-Sigmoid + Soft-OR
  • 结果: 在 Llama/Qwen 7B-14B 上全面超越无校准基线,2.6-bit 下优势最显著
  • 代码: https://github.com/rattlesnakey/NSDS

笔记创建时间: 2026-03-19