Beyond Outliers: A Data-Free Layer-wise Mixed-Precision Quantization Approach

作者: Hengyuan Zhang, Xinrong Chen, Zunhai Su, Xiao Liang, Jing Xiong, Wendong Xu, He Xiao, Chaofan Tao, Wei Zhang, Ruobing Xie, Lei Jiang, Hayden Kwok-Hay So, Ngai Wong 年份: 2025 会议: arXiv 分类: 量化与低秩

论文笔记：Beyond Outliers: A Data-Free Layer-wise Mixed-Precision Quantization Approach

元信息

项目	内容
机构	The University of Hong Kong, Peking University, Tsinghua University, UCLA, Tencent
日期	March 2025
项目主页	-
对比基线	GPTQ, AWQ, SmoothQuant, HQQ, SliM-LLM
链接	arXiv / Code

一句话总结

提出 NSDS，一种无需校准数据的层级混合精度量化框架，从数值脆弱性和结构表达力双视角评估层敏感度，并通过机制性组件分解实现角色感知的精度分配。

核心贡献

Numerical & Structural Dual-Sensitivity: 首次从数值（outlier）和结构（谱特性）两个互补视角评估量化敏感度，揭示了”低数值敏感但高结构敏感的层仍然会严重退化”的现象

机制性组件分解: 首次将机制可解释性引入量化敏感度估计，将 Transformer 层分解为 Detector（检测器）和 Writer（写入器）两类功能角色，分配角色特定的敏感度度量

MAD-Sigmoid + Soft-OR 聚合: 设计鲁棒的分数聚合方案，避免简单平均导致的敏感度信号被稀释，在无校准数据条件下持续超越现有方法

问题背景

要解决的问题

在极低比特（2-4 bit）条件下，如何无需校准数据地为 LLM 的每一层分配最优量化精度（即 Layer-wise Mixed-Precision Quantization, LMPQ）

现有方法的局限

校准依赖方法（如 AWQ, GPTQ）：需要代表性校准数据集，存在对特定数据分布过拟合的风险

现有无校准方法（如 HQQ, EWQ）：仅使用单一数值指标（如 MSE、outlier 幅度），忽略权重的结构信息；且将层内所有模块统一对待，忽略不同权重矩阵的功能差异

仅关注 outlier 的方法无法捕获”数值上平稳但结构上关键”的层

本文的动机

观察到 excess kurtosis（衡量 outlier 严重度）和奇异值分解谱特性（衡量结构表达力）对量化敏感度提供了互补信息

Transformer 层内不同权重矩阵扮演不同角色（QK 做注意力检测 vs OV 做信息写入），应赋予不同的敏感度评估策略

方法详解

整体框架

NSDS 框架包含三个阶段：

机制性层分解：将每层分解为 Detector 和 Writer 两类组件
双视角敏感度估计：从数值脆弱性（NV）和结构表达力（SE）两个角度评估每个组件
鲁棒聚合与比特分配：通过 MAD-Sigmoid 归一化 + Soft-OR 操作聚合为层级敏感度分数，指导比特分配

模块 1: 机制性层分解

设计动机: 基于机制可解释性研究，Transformer 层中不同权重矩阵具有截然不同的功能角色

Multi-Head Attention 分解:

将 MHA 重写为两个复合矩阵： $W_{QK}^{(l,h)} = W_Q^{(l,h)} W_K^{(l,h)\top}$ 和 $W_{OV}^{(l,h)} = W_V^{(l,h)} W_O^{(l,h)}$
$W_{QK}$ 控制注意力模式（哪些 token 关注哪些 token）
$W_{OV}$ 控制信息传递（从关注的 token 提取并写回什么信息）

FFN 分解:

$W_{in}$ ：输入投影，决定激活哪些神经元（检测模式）
$W_{out}$ ：输出投影，将激活信息写回残差流

角色分类:

Detector（检测器）: $W_{QK}$ 和 $W_{in}$ ——计算注意力或神经元激活模式
Writer（写入器）: $W_{OV}$ 和 $W_{out}$ ——将信息处理后写回残差流

模块 2: 数值脆弱性（Numerical Vulnerability, NV）

设计动机: 权重中的 outlier 会在量化时导致严重的精度损失，Excess Kurtosis 能直接量化 outlier 的严重程度

具体实现: 对每个组件的权重矩阵展平后计算 excess kurtosis $\kappa(w)$

高 kurtosis 意味着权重分布具有重尾特征，量化截断误差大

模块 3: 结构表达力（Structural Expressiveness, SE）

设计动机: 即使数值上没有极端 outlier，权重矩阵的奇异值结构如果被量化破坏，也会导致性能退化

基础表达力:

通过 SVD 分解权重矩阵 $W = U\Sigma V^\top$ $W = U Σ V^{⊤}$ ，利用奇异值 $\sigma = [\sigma_1, \dots, \sigma_k]$ $σ = [σ_{1}, \dots, σ_{k}]$ 计算：
- 谱幅度 $\|\sigma\|_1$ ：衡量整体信息容量
- 谱熵 $H(\sigma)$ ：衡量信息分布的均匀程度
基础表达力 $\mathcal{E}_{base} = \|\sigma\|_1 \times \exp(H(\sigma))$

角色感知重加权:

Detection Specificity（面向 Detector）：用右奇异向量 $v_i$ 的 kurtosis 作为重加权因子 $\beta_{DS}^{(i)} = \kappa(v_i)$ ，捕获检测模式的尖锐程度
Writing Density（面向 Writer）：用左奇异向量 $u_i$ 在 unembedding 矩阵上的投影 $\beta_{WD}^{(i)} = \|W_U^\top u_i\|_1$ ，衡量该方向对词表分布的影响密度
重加权后得到角色感知表达力 $\mathcal{E}_{role}$

模块 4: MAD-Sigmoid 归一化与 Soft-OR 聚合

MAD-Sigmoid 归一化: 使用中位数绝对偏差（MAD）替代标准差，对 outlier 分数本身更鲁棒

Soft-OR 聚合: 避免简单平均稀释敏感信号，只要一个组件高度敏感，整层即被标记为敏感

最终层级分数 $S_l^{NSDS} = \text{Soft-OR}(S_l^{NV}, S_l^{SE})$

比特分配策略

给定目标平均比特预算 $\bar{b} \in [2, 4]$ ，计算比例 $\rho = (\bar{b} - 2) / (4 - 2)$

按 $S_l^{NSDS}$ 从高到低排序，前 $L_4 = \text{round}(\rho \cdot L)$ 层分配 4-bit，其余分配 2-bit

关键公式

公式 1: 注意力机制分解

\text{Attn}^{(l,h)}(X^{(l-1)}) = \text{softmax}\!\left(\frac{X^{(l-1)} W_{QK}^{(l,h)} X^{(l-1)\top}}{\sqrt{d_{head}}}\right) \cdot X^{(l-1)} W_{OV}^{(l,h)}

含义: 将注意力操作分解为检测（QK）和写入（OV）两个独立的功能组件

符号说明:

$W_{QK}^{(l,h)} = W_Q^{(l,h)} W_K^{(l,h)\top}$ : 第 $l$ 层第 $h$ 个头的注意力模式矩阵
$W_{OV}^{(l,h)} = W_V^{(l,h)} W_O^{(l,h)}$ : 第 $l$ 层第 $h$ 个头的信息传递矩阵
$d_{head}$ : 每个头的维度

公式 2: 前馈网络

\text{FFN}^{(l)}(X_{mid}^{(l)}) = \sigma(X_{mid}^{(l)} W_{in}^{(l)}) W_{out}^{(l)}

含义: FFN 分解为输入投影（检测）和输出投影（写入）

符号说明:

$W_{in}^{(l)} \in \mathbb{R}^{d_{model} \times d_{ffn}}$ : 输入投影矩阵（Detector）
$W_{out}^{(l)} \in \mathbb{R}^{d_{ffn} \times d_{model}}$ : 输出投影矩阵（Writer）
$\sigma$ : 激活函数

公式 3: 超额峰度

\kappa(w) = \frac{\mathbb{E}[(w - \mu)^4]}{(\mathbb{E}[(w - \mu)^2])^2} - 3

含义: 衡量权重分布的重尾程度， $\kappa > 0$ 表示存在异常大的 outlier，量化时截断误差更大

符号说明:

$w$ : 展平后的权重向量
$\mu$ : 权重均值
$-3$ : 减去正态分布的峰度，使正态分布对应 $\kappa = 0$

公式 4: 结构表达力

\mathcal{E}_{base} = \|\sigma\|_1 \times \exp(H(\sigma))

含义: 综合奇异值的总能量和分布均匀性来衡量权重矩阵的结构表达能力

符号说明:

$\|\sigma\|_1 = \sum_i \sigma_i$ : 谱幅度，衡量总信息容量
$H(\sigma) = -\sum_i p_i \log p_i$ : 谱熵，其中 $p_i = \sigma_i / \sum_j \sigma_j$

公式 5: Detection Specificity 重加权

\beta_{DS}^{(i)} = \kappa(v_i)

含义: 对 Detector 组件，用右奇异向量的峰度作为角色特定重加权因子，捕获检测模式的尖锐程度

符号说明:

$v_i$ : 第 $i$ 个右奇异向量

公式 6: Writing Density 重加权

\beta_{WD}^{(i)} = \|W_U^\top u_i\|_1

含义: 对 Writer 组件，衡量左奇异向量在 unembedding 空间的投影密度，反映该方向对词表预测的影响范围

符号说明:

$u_i$ : 第 $i$ 个左奇异向量
$W_U$ : unembedding 矩阵

公式 7: MAD-Sigmoid 归一化

z^{(l,c)} = \frac{r^{(l,c)} - \text{Median}(\mathcal{R})}{1.4826 \cdot \text{MAD}(\mathcal{R}) + \varepsilon}

\mathcal{P}^{(l,c)} = \frac{1}{1 + \exp(-z^{(l,c)})}

含义: 用 MAD（中位数绝对偏差）替代标准差做鲁棒 Z-score 归一化，再映射到 $(0,1)$ 概率空间

符号说明:

$\text{MAD}(\mathcal{R}) = \text{Median}(|r^{(l,c)} - \text{Median}(\mathcal{R})|)$
$1.4826$ : 使 MAD 在正态分布下与标准差一致的缩放因子
$\varepsilon$ : 防止除零的小常数

公式 8: Soft-OR 聚合

\text{Soft-OR}(\{\mathcal{P}_i\}) = 1 - \prod_i (1 - \mathcal{P}_i)

含义: 类似概率论中独立事件”至少一个发生”的概率，只要有一个组件高度敏感，整层即被标记为高敏感

符号说明:

$\mathcal{P}_i \in (0,1)$ : 各组件的归一化敏感度分数

公式 9: 最终层敏感度

S_l^{NSDS} = \text{Soft-OR}(S_l^{NV}, S_l^{SE})

含义: 融合数值脆弱性和结构表达力两个维度的层级敏感度

符号说明:

$S_l^{NV} = \text{Soft-OR}(\{P_{NV}^{(l,c)}\})$ : 数值敏感度
$S_l^{SE} = \text{Soft-OR}(\{P_{SE}^{(l,c)}\})$ : 结构敏感度

公式 10: 比特分配

L_4 = \text{round}(\rho \cdot L), \quad \rho = \frac{\bar{b} - 2}{4 - 2}

含义: 根据目标平均比特预算，按敏感度排序分配 4-bit 和 2-bit

符号说明:

$\bar{b}$ : 目标平均比特预算
$L$ : 总层数
$L_4$ : 分配 4-bit 的层数

关键图表

Figure 1: 层级敏感度可视化

Figure 1: Layer-wise sensitivity {:width 600}

说明: 在两个 LLM 上展示层级敏感度。每个点代表一层，颜色越深表示量化该层后困惑度退化（ $\Delta$ PPL）越严重。关键发现：存在数值 outlier 不严重但结构敏感度高的层，仅靠 outlier 指标无法识别这些关键层。

Figure 2: NSDS 框架概览

Figure 2: NSDS framework overview {:width 600}

说明: NSDS 框架全流程。左侧展示层的机制性分解为 Detector 和 Writer 组件；中间分别计算数值脆弱性（NV）和结构表达力（SE）；右侧通过 MAD-Sigmoid 归一化和 Soft-OR 聚合得到统一的层级敏感度分数。

Figure 3: 不同比特预算下的平均准确率

Figure 3: Average accuracy across bit budgets {:width 600}

说明: NSDS 与基线方法在 Llama-3.1-8B 和 Qwen2.5-7B 上不同比特预算下的表现。关键发现：在低比特预算（2.6 bits）下，竞争方法性能急剧下降，而 NSDS 保持稳定。

Figure 4: 消融分析

Figure 4: Ablation analysis {:width 600}

说明: 逐一去除 NSDS 各组件后的平均准确率变化。验证了数值和结构双视角、角色感知重加权、MAD-Sigmoid 和 Soft-OR 各组件的必要性。

Figure 5: 与校准依赖方法的对比

Figure 5: Calibration-based comparison {:width 600}

说明: NSDS（无校准数据）与校准依赖基线方法在通用推理 benchmark 上的对比。NSDS 在无需校准数据的条件下达到与校准方法竞争甚至更优的性能。

Figure 6: PTQ 后端集成

Figure 6: PTQ backend integration {:width 600}

说明: 将 NSDS 与不同 PTQ 后端（HQQ, GPTQ）集成的效果，对比 SliM-LLM。NSDS 作为精度分配策略可以正交地增强不同量化后端。

Table 1: 语言推理与建模 Benchmark 主实验（2.6-bit）

Model	Method	ARC-C ↑	HellaSwag ↑	PIQA ↑	BoolQ ↑	WinoGrande ↑	TruthfulQA ↑	Wikitext-2 ↓	C4 ↓
Llama-3.1-8B	FP16	57.76	81.97	80.09	82.11	77.35	28.40	6.24	8.95
	MSE	38.73	64.21	68.58	60.73	65.82	23.95	9.22	12.35
	EWQ	40.17	67.16	71.49	64.52	67.43	23.34	8.38	11.27
	ZD	39.45	66.94	69.63	62.88	67.51	24.49	8.42	11.51
	KurtBoost	41.87	68.22	70.76	67.76	69.69	25.15	7.74	10.65
	NSDS	43.16	69.67	73.31	66.89	72.28	26.43	7.25	9.97
Qwen2.5-7B	FP16	63.82	80.22	78.73	84.65	76.01	39.05	6.85	10.44
	MSE	53.68	67.35	72.92	69.85	65.18	27.82	11.65	14.22
	EWQ	51.85	67.52	72.10	67.96	64.35	26.95	11.48	14.05
	ZD	55.82	70.45	73.01	72.95	65.25	28.94	9.23	12.15
	KurtBoost	54.25	69.92	72.48	70.40	65.72	28.35	9.84	13.68
	NSDS	57.08	71.56	75.25	73.18	68.56	31.15	8.61	11.83

说明: 在 2.6-bit 平均精度下，NSDS 在所有 benchmark 上全面超越其他无校准基线。Llama-3.1-8B 上 ARC-C 比最强基线 KurtBoost 高 1.29%，Qwen2.5-7B 上更是高 2.83%。

Table 2: 大模型结果（13B-14B）

Model	Metric	FP16	MSE	EWQ	ZD	KurtBoost	NSDS
Llama-2-13B	Acc. ↑	67.23	59.91	61.68	60.99	62.08	63.01
	PPL ↓	5.67	9.38	7.61	7.98	7.51	7.11
Qwen2.5-14B	Acc. ↑	73.25	64.29	63.36	65.42	65.13	66.15
	PPL ↓	7.22	10.62	11.13	10.25	10.41	9.96

说明: 在更大模型上 NSDS 依然保持优势，Llama-2-13B 准确率比 KurtBoost 高 0.93%，困惑度低 0.40。

实验

评估基准

基准	类型	指标
ARC-Challenge	推理	准确率 ↑
HellaSwag	常识推理	准确率 ↑
PIQA	物理推理	准确率 ↑
BoolQ	阅读理解	准确率 ↑
WinoGrande	代词消解	准确率 ↑
TruthfulQA	真实性	准确率 ↑
Wikitext-2	语言建模	困惑度 ↓
C4	语言建模	困惑度 ↓

模型

模型	参数量	系列
Llama-3.1-8B	8B	Llama
Llama-2-13B	13B	Llama
Qwen2.5-7B	7B	Qwen
Qwen2.5-14B	14B	Qwen

实现细节

量化后端: HQQ（默认）, GPTQ

比特配置: 2-bit / 4-bit 混合，平均 2.6-bit

无需校准数据: 所有敏感度估计仅基于模型权重本身

SVD 截断: 仅使用前 $k$ 个奇异值以提高效率

关键实验发现

低比特预算优势明显: 在 2.6-bit 时 NSDS 优势最大，说明双视角敏感度在极端压缩下更为关键

跨模型鲁棒性: 在 Llama 和 Qwen 两个截然不同的模型系列上均保持领先

正交性: 与不同 PTQ 后端（HQQ, GPTQ）结合均能提升性能

消融验证: 去除任何一个组件（NV、SE、角色感知、MAD-Sigmoid、Soft-OR）都会导致性能下降

批判性思考

优点

无需校准数据: 避免了校准数据选择偏差和过拟合问题，部署更简便

理论动机清晰: 从机制可解释性出发的 Detector/Writer 分解有坚实的理论支撑

设计精巧: MAD-Sigmoid 处理 outlier 分数本身的 outlier，Soft-OR 避免敏感信号被稀释，每个设计选择都有明确的理由

正交可组合: 作为精度分配策略，可以与任意 PTQ 量化后端组合

局限性

仅 2-bit/4-bit 二档: 比特分配粒度较粗，未探索更细粒度的混合精度（如 2/3/4/8-bit）

模型规模有限: 实验仅覆盖到 14B，未验证 30B/70B+ 模型上的效果，作者也承认大模型上敏感度模式可能不同

SVD 计算开销: 对每个权重矩阵做 SVD 分解在超大模型上可能带来不可忽视的额外计算

仅限 weight-only 量化: 未考虑 activation 量化的敏感度

潜在改进方向

扩展到更细粒度的比特分配（连续比特优化 / ILP 求解）

引入 activation 统计信息（如 SmoothQuant 的思路）形成更完整的敏感度评估

在超大模型（70B+）上验证并可能需要自适应的 SVD 截断策略

探索 block-wise 或 channel-wise 混合精度而非 layer-wise

可复现性评估

代码开源（https://github.com/rattlesnakey/NSDS）
预训练模型（使用公开 LLM，无需额外预训练）
训练细节完整（无训练过程，仅权重分析）
数据集可获取（公开 benchmark）

关联笔记

基于

GPTQ: 校准依赖的 PTQ 基线，NSDS 可作为其精度分配前端

AWQ: 基于激活感知的权重量化，代表校准依赖方法

HQQ: Half-Quadratic Quantization，NSDS 的默认量化后端

对比

SliM-LLM: 校准依赖的 LMPQ 方法，NSDS 的主要对比对象

SmoothQuant: 激活-权重平滑量化，处理 outlier 的另一范式

方法相关

混合精度: 核心方法——层级混合精度量化

PTQ: 后训练量化框架

SVD: 结构表达力分析的数学工具

Excess Kurtosis: 数值脆弱性的核心度量

Mechanistic Interpretability: Detector/Writer 分解的理论基础

MAD-Sigmoid: 鲁棒归一化方案

Soft-OR: 敏感度聚合运算

硬件/数据相关

Wikitext-2: 语言建模评估基准

HellaSwag: 常识推理评估基准

速查卡片

Beyond Outliers: A Data-Free Layer-wise Mixed-Precision Quantization Approach

核心: 无校准数据的层级混合精度量化，从数值和结构双视角评估敏感度
方法: 机制性分解（Detector/Writer）+ Excess Kurtosis（NV）+ SVD 谱分析（SE）+ MAD-Sigmoid + Soft-OR
结果: 在 Llama/Qwen 7B-14B 上全面超越无校准基线，2.6-bit 下优势最显著
代码: https://github.com/rattlesnakey/NSDS

笔记创建时间: 2026-03-19