Beyond Outliers: A Data-Free Layer-wise Mixed-Precision Quantization Approach
论文笔记:Beyond Outliers: A Data-Free Layer-wise Mixed-Precision Quantization Approach
元信息
| 项目 | 内容 |
|---|---|
| 机构 | The University of Hong Kong, Peking University, Tsinghua University, UCLA, Tencent |
| 日期 | March 2025 |
| 项目主页 | - |
| 对比基线 | GPTQ, AWQ, SmoothQuant, HQQ, SliM-LLM |
| 链接 | arXiv / Code |
一句话总结
提出 NSDS,一种无需校准数据的层级混合精度量化框架,从数值脆弱性和结构表达力双视角评估层敏感度,并通过机制性组件分解实现角色感知的精度分配。
核心贡献
Numerical & Structural Dual-Sensitivity: 首次从数值(outlier)和结构(谱特性)两个互补视角评估量化敏感度,揭示了”低数值敏感但高结构敏感的层仍然会严重退化”的现象
机制性组件分解: 首次将 机制可解释性 引入量化敏感度估计,将 Transformer 层分解为 Detector(检测器)和 Writer(写入器)两类功能角色,分配角色特定的敏感度度量
MAD-Sigmoid + Soft-OR 聚合: 设计鲁棒的分数聚合方案,避免简单平均导致的敏感度信号被稀释,在无校准数据条件下持续超越现有方法
问题背景
要解决的问题
在极低比特(2-4 bit)条件下,如何无需校准数据地为 LLM 的每一层分配最优量化精度(即 Layer-wise Mixed-Precision Quantization, LMPQ)
现有方法的局限
校准依赖方法(如 AWQ, GPTQ):需要代表性校准数据集,存在对特定数据分布过拟合的风险
现有无校准方法(如 HQQ, EWQ):仅使用单一数值指标(如 MSE、outlier 幅度),忽略权重的结构信息;且将层内所有模块统一对待,忽略不同权重矩阵的功能差异
仅关注 outlier 的方法无法捕获”数值上平稳但结构上关键”的层
本文的动机
观察到 excess kurtosis(衡量 outlier 严重度)和 奇异值分解 谱特性(衡量结构表达力)对量化敏感度提供了互补信息
Transformer 层内不同权重矩阵扮演不同角色(QK 做注意力检测 vs OV 做信息写入),应赋予不同的敏感度评估策略
方法详解
整体框架
NSDS 框架包含三个阶段:
- 机制性层分解:将每层分解为 Detector 和 Writer 两类组件
- 双视角敏感度估计:从数值脆弱性(NV)和结构表达力(SE)两个角度评估每个组件
- 鲁棒聚合与比特分配:通过 MAD-Sigmoid 归一化 + Soft-OR 操作聚合为层级敏感度分数,指导比特分配
模块 1: 机制性层分解
设计动机: 基于 机制可解释性 研究,Transformer 层中不同权重矩阵具有截然不同的功能角色
Multi-Head Attention 分解:
- 将 MHA 重写为两个复合矩阵: 和
- 控制注意力模式(哪些 token 关注哪些 token)
- 控制信息传递(从关注的 token 提取并写回什么信息)
FFN 分解:
- :输入投影,决定激活哪些神经元(检测模式)
- :输出投影,将激活信息写回残差流
角色分类:
- Detector(检测器): 和 ——计算注意力或神经元激活模式
- Writer(写入器): 和 ——将信息处理后写回残差流
模块 2: 数值脆弱性(Numerical Vulnerability, NV)
设计动机: 权重中的 outlier 会在量化时导致严重的精度损失,Excess Kurtosis 能直接量化 outlier 的严重程度
具体实现: 对每个组件的权重矩阵展平后计算 excess kurtosis
高 kurtosis 意味着权重分布具有重尾特征,量化截断误差大
模块 3: 结构表达力(Structural Expressiveness, SE)
设计动机: 即使数值上没有极端 outlier,权重矩阵的 奇异值 结构如果被量化破坏,也会导致性能退化
基础表达力:
- 通过 SVD 分解权重矩阵 ,利用奇异值 计算:
- 谱幅度 :衡量整体信息容量
- 谱熵 :衡量信息分布的均匀程度
- 基础表达力
角色感知重加权:
- Detection Specificity(面向 Detector):用右奇异向量 的 kurtosis 作为重加权因子 ,捕获检测模式的尖锐程度
- Writing Density(面向 Writer):用左奇异向量 在 unembedding 矩阵上的投影 ,衡量该方向对词表分布的影响密度
- 重加权后得到角色感知表达力
模块 4: MAD-Sigmoid 归一化与 Soft-OR 聚合
MAD-Sigmoid 归一化: 使用中位数绝对偏差(MAD)替代标准差,对 outlier 分数本身更鲁棒
Soft-OR 聚合: 避免简单平均稀释敏感信号,只要一个组件高度敏感,整层即被标记为敏感
最终层级分数
比特分配策略
给定目标平均比特预算 ,计算比例
按 从高到低排序,前 层分配 4-bit,其余分配 2-bit
关键公式
公式 1: 注意力机制分解
含义: 将注意力操作分解为检测(QK)和写入(OV)两个独立的功能组件
符号说明:
- : 第 层第 个头的注意力模式矩阵
- : 第 层第 个头的信息传递矩阵
- : 每个头的维度
公式 2: 前馈网络
含义: FFN 分解为输入投影(检测)和输出投影(写入)
符号说明:
- : 输入投影矩阵(Detector)
- : 输出投影矩阵(Writer)
- : 激活函数
公式 3: 超额峰度
含义: 衡量权重分布的重尾程度, 表示存在异常大的 outlier,量化时截断误差更大
符号说明:
- : 展平后的权重向量
- : 权重均值
- : 减去正态分布的峰度,使正态分布对应
公式 4: 结构表达力
含义: 综合奇异值的总能量和分布均匀性来衡量权重矩阵的结构表达能力
符号说明:
- : 谱幅度,衡量总信息容量
- : 谱熵,其中
公式 5: Detection Specificity 重加权
含义: 对 Detector 组件,用右奇异向量的峰度作为角色特定重加权因子,捕获检测模式的尖锐程度
符号说明:
- : 第 个右奇异向量
公式 6: Writing Density 重加权
含义: 对 Writer 组件,衡量左奇异向量在 unembedding 空间的投影密度,反映该方向对词表预测的影响范围
符号说明:
- : 第 个左奇异向量
- : unembedding 矩阵
公式 7: MAD-Sigmoid 归一化
含义: 用 MAD(中位数绝对偏差)替代标准差做鲁棒 Z-score 归一化,再映射到 概率空间
符号说明:
- : 使 MAD 在正态分布下与标准差一致的缩放因子
- : 防止除零的小常数
公式 8: Soft-OR 聚合
含义: 类似概率论中独立事件”至少一个发生”的概率,只要有一个组件高度敏感,整层即被标记为高敏感
符号说明:
- : 各组件的归一化敏感度分数
公式 9: 最终层敏感度
含义: 融合数值脆弱性和结构表达力两个维度的层级敏感度
符号说明:
- : 数值敏感度
- : 结构敏感度
公式 10: 比特分配
含义: 根据目标平均比特预算,按敏感度排序分配 4-bit 和 2-bit
符号说明:
- : 目标平均比特预算
- : 总层数
- : 分配 4-bit 的层数
关键图表
Figure 1: 层级敏感度可视化
{:width 600}
说明: 在两个 LLM 上展示层级敏感度。每个点代表一层,颜色越深表示量化该层后困惑度退化(PPL)越严重。关键发现:存在数值 outlier 不严重但结构敏感度高的层,仅靠 outlier 指标无法识别这些关键层。
Figure 2: NSDS 框架概览
{:width 600}
说明: NSDS 框架全流程。左侧展示层的机制性分解为 Detector 和 Writer 组件;中间分别计算数值脆弱性(NV)和结构表达力(SE);右侧通过 MAD-Sigmoid 归一化和 Soft-OR 聚合得到统一的层级敏感度分数。
Figure 3: 不同比特预算下的平均准确率
{:width 600}
说明: NSDS 与基线方法在 Llama-3.1-8B 和 Qwen2.5-7B 上不同比特预算下的表现。关键发现:在低比特预算(2.6 bits)下,竞争方法性能急剧下降,而 NSDS 保持稳定。
Figure 4: 消融分析
{:width 600}
说明: 逐一去除 NSDS 各组件后的平均准确率变化。验证了数值和结构双视角、角色感知重加权、MAD-Sigmoid 和 Soft-OR 各组件的必要性。
Figure 5: 与校准依赖方法的对比
{:width 600}
说明: NSDS(无校准数据)与校准依赖基线方法在通用推理 benchmark 上的对比。NSDS 在无需校准数据的条件下达到与校准方法竞争甚至更优的性能。
Figure 6: PTQ 后端集成
{:width 600}
说明: 将 NSDS 与不同 PTQ 后端(HQQ, GPTQ)集成的效果,对比 SliM-LLM。NSDS 作为精度分配策略可以正交地增强不同量化后端。
Table 1: 语言推理与建模 Benchmark 主实验(2.6-bit)
| Model | Method | ARC-C ↑ | HellaSwag ↑ | PIQA ↑ | BoolQ ↑ | WinoGrande ↑ | TruthfulQA ↑ | Wikitext-2 ↓ | C4 ↓ |
|---|---|---|---|---|---|---|---|---|---|
| Llama-3.1-8B | FP16 | 57.76 | 81.97 | 80.09 | 82.11 | 77.35 | 28.40 | 6.24 | 8.95 |
| MSE | 38.73 | 64.21 | 68.58 | 60.73 | 65.82 | 23.95 | 9.22 | 12.35 | |
| EWQ | 40.17 | 67.16 | 71.49 | 64.52 | 67.43 | 23.34 | 8.38 | 11.27 | |
| ZD | 39.45 | 66.94 | 69.63 | 62.88 | 67.51 | 24.49 | 8.42 | 11.51 | |
| KurtBoost | 41.87 | 68.22 | 70.76 | 67.76 | 69.69 | 25.15 | 7.74 | 10.65 | |
| NSDS | 43.16 | 69.67 | 73.31 | 66.89 | 72.28 | 26.43 | 7.25 | 9.97 | |
| Qwen2.5-7B | FP16 | 63.82 | 80.22 | 78.73 | 84.65 | 76.01 | 39.05 | 6.85 | 10.44 |
| MSE | 53.68 | 67.35 | 72.92 | 69.85 | 65.18 | 27.82 | 11.65 | 14.22 | |
| EWQ | 51.85 | 67.52 | 72.10 | 67.96 | 64.35 | 26.95 | 11.48 | 14.05 | |
| ZD | 55.82 | 70.45 | 73.01 | 72.95 | 65.25 | 28.94 | 9.23 | 12.15 | |
| KurtBoost | 54.25 | 69.92 | 72.48 | 70.40 | 65.72 | 28.35 | 9.84 | 13.68 | |
| NSDS | 57.08 | 71.56 | 75.25 | 73.18 | 68.56 | 31.15 | 8.61 | 11.83 |
说明: 在 2.6-bit 平均精度下,NSDS 在所有 benchmark 上全面超越其他无校准基线。Llama-3.1-8B 上 ARC-C 比最强基线 KurtBoost 高 1.29%,Qwen2.5-7B 上更是高 2.83%。
Table 2: 大模型结果(13B-14B)
| Model | Metric | FP16 | MSE | EWQ | ZD | KurtBoost | NSDS |
|---|---|---|---|---|---|---|---|
| Llama-2-13B | Acc. ↑ | 67.23 | 59.91 | 61.68 | 60.99 | 62.08 | 63.01 |
| PPL ↓ | 5.67 | 9.38 | 7.61 | 7.98 | 7.51 | 7.11 | |
| Qwen2.5-14B | Acc. ↑ | 73.25 | 64.29 | 63.36 | 65.42 | 65.13 | 66.15 |
| PPL ↓ | 7.22 | 10.62 | 11.13 | 10.25 | 10.41 | 9.96 |
说明: 在更大模型上 NSDS 依然保持优势,Llama-2-13B 准确率比 KurtBoost 高 0.93%,困惑度低 0.40。
实验
评估基准
| 基准 | 类型 | 指标 |
|---|---|---|
| ARC-Challenge | 推理 | 准确率 ↑ |
| HellaSwag | 常识推理 | 准确率 ↑ |
| PIQA | 物理推理 | 准确率 ↑ |
| BoolQ | 阅读理解 | 准确率 ↑ |
| WinoGrande | 代词消解 | 准确率 ↑ |
| TruthfulQA | 真实性 | 准确率 ↑ |
| Wikitext-2 | 语言建模 | 困惑度 ↓ |
| C4 | 语言建模 | 困惑度 ↓ |
模型
| 模型 | 参数量 | 系列 |
|---|---|---|
| Llama-3.1-8B | 8B | Llama |
| Llama-2-13B | 13B | Llama |
| Qwen2.5-7B | 7B | Qwen |
| Qwen2.5-14B | 14B | Qwen |
实现细节
比特配置: 2-bit / 4-bit 混合,平均 2.6-bit
无需校准数据: 所有敏感度估计仅基于模型权重本身
SVD 截断: 仅使用前 个奇异值以提高效率
关键实验发现
低比特预算优势明显: 在 2.6-bit 时 NSDS 优势最大,说明双视角敏感度在极端压缩下更为关键
跨模型鲁棒性: 在 Llama 和 Qwen 两个截然不同的模型系列上均保持领先
正交性: 与不同 PTQ 后端(HQQ, GPTQ)结合均能提升性能
消融验证: 去除任何一个组件(NV、SE、角色感知、MAD-Sigmoid、Soft-OR)都会导致性能下降
批判性思考
优点
无需校准数据: 避免了校准数据选择偏差和过拟合问题,部署更简便
理论动机清晰: 从机制可解释性出发的 Detector/Writer 分解有坚实的理论支撑
设计精巧: MAD-Sigmoid 处理 outlier 分数本身的 outlier,Soft-OR 避免敏感信号被稀释,每个设计选择都有明确的理由
正交可组合: 作为精度分配策略,可以与任意 PTQ 量化后端组合
局限性
仅 2-bit/4-bit 二档: 比特分配粒度较粗,未探索更细粒度的混合精度(如 2/3/4/8-bit)
模型规模有限: 实验仅覆盖到 14B,未验证 30B/70B+ 模型上的效果,作者也承认大模型上敏感度模式可能不同
SVD 计算开销: 对每个权重矩阵做 SVD 分解在超大模型上可能带来不可忽视的额外计算
仅限 weight-only 量化: 未考虑 activation 量化的敏感度
潜在改进方向
扩展到更细粒度的比特分配(连续比特优化 / ILP 求解)
引入 activation 统计信息(如 SmoothQuant 的思路)形成更完整的敏感度评估
在超大模型(70B+)上验证并可能需要自适应的 SVD 截断策略
探索 block-wise 或 channel-wise 混合精度而非 layer-wise
可复现性评估
- 代码开源(https://github.com/rattlesnakey/NSDS)
- 预训练模型(使用公开 LLM,无需额外预训练)
- 训练细节完整(无训练过程,仅权重分析)
- 数据集可获取(公开 benchmark)
关联笔记
基于
GPTQ: 校准依赖的 PTQ 基线,NSDS 可作为其精度分配前端
AWQ: 基于激活感知的权重量化,代表校准依赖方法
HQQ: Half-Quadratic Quantization,NSDS 的默认量化后端
对比
SliM-LLM: 校准依赖的 LMPQ 方法,NSDS 的主要对比对象
SmoothQuant: 激活-权重平滑量化,处理 outlier 的另一范式
方法相关
混合精度: 核心方法——层级混合精度量化
PTQ: 后训练量化框架
SVD: 结构表达力分析的数学工具
Excess Kurtosis: 数值脆弱性的核心度量
Mechanistic Interpretability: Detector/Writer 分解的理论基础
MAD-Sigmoid: 鲁棒归一化方案
Soft-OR: 敏感度聚合运算
硬件/数据相关
Wikitext-2: 语言建模评估基准
HellaSwag: 常识推理评估基准
速查卡片
Beyond Outliers: A Data-Free Layer-wise Mixed-Precision Quantization Approach
- 核心: 无校准数据的层级混合精度量化,从数值和结构双视角评估敏感度
- 方法: 机制性分解(Detector/Writer)+ Excess Kurtosis(NV)+ SVD 谱分析(SE)+ MAD-Sigmoid + Soft-OR
- 结果: 在 Llama/Qwen 7B-14B 上全面超越无校准基线,2.6-bit 下优势最显著
- 代码: https://github.com/rattlesnakey/NSDS
笔记创建时间: 2026-03-19