RAMP: Reinforcement Adaptive Mixed-Precision Quantization for Efficient On-Device LLM Inference

作者: Arpit Singh Gautam, Saurabh Jha 年份: 2026 会议: arXiv 分类: 量化与低秩

论文笔记:RAMP: Reinforcement Adaptive Mixed-Precision Quantization for Efficient On-Device LLM Inference

元信息

项目内容
机构未明确注明
日期March 2026
项目主页
对比基线GPTQ, AWQ, SmoothQuant, Quip#
链接arXiv

一句话总结

Soft Actor-Critic 强化学习自动搜索 LLM 逐层混合精度量化策略,实现跨模型零样本迁移。

核心贡献

RL 驱动的混合精度搜索: 用 SAC 在 11 维层级嵌入空间上学习逐层 bit-width 分配策略,约 150 个 episode 即可收敛

Scale Folding 技术: 将激活异常值迁移到权重中,实现稳定的 sub-4-bit 后训练量化,无需定制 kernel

零样本跨模型迁移: 在 Llama-2-7B 上训练的策略直接迁移到 Llama-2-13B、Mistral-7B 等模型,性能甚至优于直接训练

问题背景

要解决的问题

LLM 的”内存墙”问题:如 Llama-2-13B 在 FP16 下需要 ~26 GB,超出消费级 GPU 显存

如何在压缩模型体积的同时最小化质量损失

现有方法的局限

统一 bit 分配GPTQ, AWQ)忽略了不同层的灵敏度差异

缺乏迁移性:现有方法需要对每个模型重新优化

硬件碎片化混合精度推理因 kernel 碎片化导致比统一量化更慢

本文的动机

不同层对量化的敏感度差异显著(如输出投影层 vs. MLP 中间层),应该分配不同的精度

通过归一化的层级嵌入实现跨模型的近似尺度不变性(嵌入相关系数 r>0.93r > 0.93

方法详解

整体框架

RAMP 采用三阶段 pipeline:

  • Stage 1: SAC 智能体在分布式多 GPU 环境中搜索最优混合精度策略
  • Stage 2: 通过 Scale Folding 进行无 kernel 编译
  • Stage 3: 逐层量化并导出 GGUF 格式用于部署

核心模块

模块1: 状态表示(11 维层级嵌入)

设计动机: 通过紧凑的特征向量捕获每层的量化敏感度,实现跨模型迁移

具体实现:

  • 激活特征(2 维): 最大幅度 min(max(Xi)×1000,1.0)\min(\max(|X_i|) \times 1000, 1.0)、重要性分数 min(E[act_scales]×100,1.0)\min(\mathbb{E}[\text{act\_scales}] \times 100, 1.0)
  • 权重统计(2 维): 均值 min(E[W]×10,1.0)\min(\mathbb{E}[|W|] \times 10, 1.0)、标准差 min(std(W)×10,1.0)\min(\text{std}(W) \times 10, 1.0)
  • 结构描述符(4 维): 归一化深度 i/(nlayers1)i/(n_{\text{layers}}-1)、输入/输出维度对数、层类型标量
  • 上下文特征(3 维): 前一层 bit-width、运行均值 bit-width、位置桶

模块2: SAC 强化学习

设计动机: Soft Actor-Critic 的 off-policy 特性提供了优于 on-policy 方法(如 PPO)的样本效率

具体实现:

  • Actor 网络: MLP (512-512-256) + LayerNorm,输出高斯分布映射到离散 bit-width {3,4,5,6}\{3,4,5,6\}
  • Twin Q-networks: 缓解过估计偏差
  • 正则化: 自动温度调节,目标熵 Hˉ=1\bar{H} = -1
  • 训练约 150 个 episode 收敛,仅需 6 GPU 小时(PPO 需 48 小时)

模块3: 奖励设计

质量分量: 非对称 Perplexity 惩罚

  • 优于 FP16 基线时给予奖励
  • 退化 vs. 改善的惩罚比为 2:1

预算惩罚: 三区约束(cliff constraint)

  • bavg4.0b_{\text{avg}} \leq 4.0: 无惩罚
  • 4.0<bavg4.254.0 < b_{\text{avg}} \leq 4.25: 线性惩罚
  • bavg>4.25b_{\text{avg}} > 4.25: 二次惩罚

模块4: Scale Folding

设计动机: 将激活异常值迁移到权重中,使 sub-4-bit 量化更稳定

具体实现:

  • 计算投影层的激活缩放向量 s=act_scales = \sqrt{\text{act\_scale}}
  • 按均值归一化 ss/mean(s)s \leftarrow s / \text{mean}(s)
  • 通过逐元素乘法将缩放因子折叠到权重中
  • 用逆缩放补偿 RMSNorm
  • 改善 PPL(5.58 → 5.54)并稳定收敛

模块5: HALO 硬件感知部署

将学习到的 bit 分配映射到标准化 GGUF 量化类型

单个 GGUF 文件可在 CPU、GPU、Apple Silicon、边缘设备上通过 llama.cpp 运行

关键公式

公式1: 仿射量化

Wq=sclamp(Ws+z,0,2b1)szW_q = s \cdot \text{clamp}\left(\left\lfloor \frac{W}{s} + z \right\rceil, 0, 2^b - 1\right) - s \cdot z

含义: 将浮点权重映射到 bb-bit 整数并反量化

符号说明:

  • ss: 缩放因子
  • zz: 零点
  • bb: bit 宽度

公式2: Hessian 感知重构

minWqWWqH2=(WWq)TH(WWq)\min_{W_q} \|W - W_q\|_H^2 = (W - W_q)^T H (W - W_q)

含义: GPTQ 通过 Hessian 矩阵加权最小化量化误差

符号说明:

  • HH: Hessian 矩阵
  • WqW_q: 量化后权重

公式3: 通道缩放

X=Xs1,W=WsX' = X \cdot s^{-1}, \quad W' = W \odot s

含义: AWQ 通过通道级缩放等价变换保护显著通道

符号说明:

  • ss: 缩放向量
  • \odot: 逐元素乘法

公式4: 随机正交旋转

W=RWW' = R \cdot W

含义: QUIP# 通过随机正交矩阵旋转权重使其更均匀

符号说明:

  • RR: 随机正交矩阵

公式5: HAWQ Hessian 引导分配

bi=round(bavg+αlog(tr(Hi)))b_i = \text{round}\left(b_{\text{avg}} + \alpha \cdot \log(\text{tr}(H_i))\right)

含义: HAWQ 用 Hessian 迹的对数决定每层 bit-width

符号说明:

  • bavgb_{\text{avg}}: 平均目标 bit
  • tr(Hi)\text{tr}(H_i): 第 ii 层 Hessian 迹

公式6: SAC 熵正则化目标

maxπEsD[Eaπ(s)[Q(s,a)+αH[π(s)]]]\max_\pi \mathbb{E}_{s \sim \mathcal{D}} \left[ \mathbb{E}_{a \sim \pi(\cdot|s)} \left[ Q(s,a) + \alpha \mathcal{H}[\pi(\cdot|s)] \right] \right]

含义: SAC 最大化 Q 值与策略熵的加权和

符号说明:

  • α\alpha: 温度参数(自动调节)
  • H[π]\mathcal{H}[\pi]: 策略熵

公式7: Perplexity

PPL=exp(1Ni=1NlogPM(xix<i))\text{PPL} = \exp\left( -\frac{1}{N} \sum_{i=1}^{N} \log P_M(x_i | x_{<i}) \right)

含义: 语言模型质量的核心评估指标

符号说明:

  • NN: token 数
  • PMP_M: 模型预测概率

公式8: 混合精度量化优化问题

minπEπ(bs)[PPL(Mq)]s.t.1Li=1LbiBmax\min_\pi \mathbb{E}_{\pi(b|s)} [\text{PPL}(M_q)] \quad \text{s.t.} \quad \frac{1}{L} \sum_{i=1}^{L} b_i \leq B_{\max}

含义: 在平均 bit 预算约束下最小化量化模型的 PPL

符号说明:

  • LL: 总层数
  • BmaxB_{\max}: 最大平均 bit 预算

公式9: 逐层量化

Wq(i)=Quantize(W(i),b,siscale)W_q^{(i)} = \text{Quantize}(W^{(i)}, b, s_i^{\text{scale}})

含义: 对第 ii 层权重按分配的 bit-width 和缩放因子进行量化

公式10: 逐组仿射量化

Wq,g(i)=si(g)clamp(Wg(i)si(g)+zi(g),0,2b1)si(g)zi(g)W_{q,g}^{(i)} = s_i^{(g)} \cdot \text{clamp}\left(\left\lfloor \frac{W_g^{(i)}}{s_i^{(g)}} + z_i^{(g)} \right\rceil, 0, 2^b - 1\right) - s_i^{(g)} z_i^{(g)} si(g)=max(Wg(i))min(Wg(i))2b1s_i^{(g)} = \frac{\max(W_g^{(i)}) - \min(W_g^{(i)})}{2^b - 1}

含义: 组大小为 128 的分组量化,GGUF 兼容

符号说明:

  • gg: 组索引
  • si(g)s_i^{(g)}: 第 ii 层第 gg 组的缩放因子
  • zi(g)z_i^{(g)}: 零点

公式11: 11 维状态向量

si=[si(1),,si(11)]R11s_i = [s_i^{(1)}, \ldots, s_i^{(11)}] \in \mathbb{R}^{11}

含义: 每层的紧凑特征表示,用于策略决策

公式12: 尺度不变性

max(Xi(M1))ni(M1)max(Xi(M2))ni(M2)\frac{\max(|X_i^{(M_1)}|)}{\sqrt{n_i^{(M_1)}}} \approx \frac{\max(|X_i^{(M_2)}|)}{\sqrt{n_i^{(M_2)}}}

含义: 不同模型同类层的归一化激活统计近似相等,这是零样本迁移的基础

公式13: 状态标准化

s^i=siμsσs+ϵ\hat{s}_i = \frac{s_i - \mu_s}{\sigma_s + \epsilon}

含义: 对状态向量进行标准化以稳定训练

公式14: Actor 高斯策略

aN(μθ(s),σθ(s))a \sim \mathcal{N}(\mu_\theta(s), \sigma_\theta(s))

含义: 策略网络输出高斯分布用于连续动作空间探索

公式15: Twin Q-network

Qφ(s,a)=E[r(s,a)+γminiQφi(s,a)αH(π(s))]Q_\varphi(s,a) = \mathbb{E}\left[ r(s,a) + \gamma \min_i Q_{\varphi_i}(s',a') - \alpha \mathcal{H}(\pi(\cdot|s')) \right]

含义: 双 Q 网络取最小值缓解过估计偏差

公式16: 最优策略

π=argmaxπEsD[Eaπ[r(s,a)+αH(π(s))]]\pi^* = \arg\max_\pi \mathbb{E}_{s \sim \mathcal{D}} \left[ \mathbb{E}_{a \sim \pi} \left[ r(s,a) + \alpha \mathcal{H}(\pi(\cdot|s)) \right] \right]

含义: 熵正则化下的最优策略

公式17: 温度自动调节

Lα=Eaπθ[α(logπθ(as)+Hˉ)]\mathcal{L}_\alpha = \mathbb{E}_{a \sim \pi_\theta} \left[ -\alpha (\log \pi_\theta(a|s) + \bar{H}) \right]

含义: 自动调节温度参数 α\alpha 使策略熵逼近目标熵 Hˉ\bar{H}

公式18: Q-learning 目标

y=r+γ(1d)[miniQφi(s,a)αlogπθ(as)]y = r + \gamma(1-d)\left[\min_i Q_{\varphi_i^-}(s',a') - \alpha \log \pi_\theta(a'|s')\right]

含义: TD 目标,使用目标网络和策略采样

符号说明:

  • dd: 终止标志
  • φ\varphi^-: 目标网络参数(Polyak 平均)

公式19: 质量奖励

rq(PPL)={+10.0(1PPL/PPLbase)if PPLPPLbase5.0(PPL/PPLbase1)if PPL>PPLbaser_q(\text{PPL}) = \begin{cases} +10.0 \cdot (1 - \text{PPL}/\text{PPL}_{\text{base}}) & \text{if PPL} \leq \text{PPL}_{\text{base}} \\ -5.0 \cdot (\text{PPL}/\text{PPL}_{\text{base}} - 1) & \text{if PPL} > \text{PPL}_{\text{base}} \end{cases}

含义: 非对称惩罚——退化的惩罚力度是改善奖励的 2 倍(5.0 vs 10.0 的系数比)

公式20: Bit 预算惩罚(cliff 约束)

rb(bavg)={0if bavg4.02.0(bavg4.0)if 4.0<bavg4.2520.0(bavg4.25)2if bavg>4.25r_b(b_{\text{avg}}) = \begin{cases} 0 & \text{if } b_{\text{avg}} \leq 4.0 \\ -2.0 \cdot (b_{\text{avg}} - 4.0) & \text{if } 4.0 < b_{\text{avg}} \leq 4.25 \\ -20.0 \cdot (b_{\text{avg}} - 4.25)^2 & \text{if } b_{\text{avg}} > 4.25 \end{cases}

含义: 三区约束——允许区、线性协商区、二次惩罚区

公式21: 复合终端奖励

R=rq(PPL)+rb(bavg)R = r_q(\text{PPL}) + r_b(b_{\text{avg}})

含义: 质量优先 + 预算约束的加权终端奖励

公式22: Scale Folding 量化

Wq(i)=Quantize(ScaleFold(W(i)),bi)W_q^{(i)} = \text{Quantize}(\text{ScaleFold}(W^{(i)}), b_i)

含义: 先做 Scale Folding 再量化,稳定 sub-4-bit 精度

公式23: GGUF 类型映射

GGUF_type(bi)={Q3_K_Mif bi=3  (3.9 bpw)Q4_K_Mif bi=4  (4.84 bpw)Q5_K_Mif bi=5  (5.67 bpw)Q6_Kif bi=6  (6.56 bpw)\text{GGUF\_type}(b_i) = \begin{cases} \text{Q3\_K\_M} & \text{if } b_i = 3 \; (\approx 3.9 \text{ bpw}) \\ \text{Q4\_K\_M} & \text{if } b_i = 4 \; (\approx 4.84 \text{ bpw}) \\ \text{Q5\_K\_M} & \text{if } b_i = 5 \; (\approx 5.67 \text{ bpw}) \\ \text{Q6\_K} & \text{if } b_i = 6 \; (\approx 6.56 \text{ bpw}) \end{cases}

含义: 将策略输出的离散 bit-width 映射到 GGUF 标准量化类型

关键图表

Figure 1: Overview / RAMP 系统概览

Figure 1: Overview{:width 600}

说明: RAMP 三阶段 pipeline:Stage 1 用 SAC 在分布式多 GPU 设置中发现混合精度策略;Stage 2 通过 Scale Folding 进行无 kernel 编译;Stage 3 逐层量化并导出 GGUF 格式。

Figure 2: Reward Loop / 奖励计算

Figure 2: Reward Computation{:width 600}

说明: 应用策略后,在 Perplexity、内存占用和激活稳定性上评估量化模型,组合成标量奖励信号。

Figure 3: Training Dynamics / 训练动态

Figure 3: Training Dynamics{:width 600}

说明: PPL、平均 bit-width、奖励随 episode 的变化。约 150 episode 后收敛,最终 PPL 达 5.54。

Figure 4: Best-so-far PPL / 最佳 PPL 搜索曲线

Figure 4: Best-so-far PPL{:width 600}

说明: 搜索过程中遇到的最佳 PPL 随 episode 单调递减,约 121 episode 后稳定。

Figure 5: Llama-2-7B PPL vs. Size / 性能-体积对比

Figure 5: PPL vs. Model Size{:width 600}

说明: RAMP 在 Perplexity vs. 模型大小的二维空间中占据帕累托最优位置,同时比统一 4-bit 基线更小(3.68 GB vs. 3.90 GB)且质量更好(5.54 vs. 5.60)。

Figure 6: Llama-2-7B Bit Allocation / 比特分配

Figure 6: Bit Allocation Llama-2-7B{:width 600}

说明: 224 个可量化线性层的逐层 bit 分配。输出投影层获得最高精度,MLP 中间层被最激进压缩。精度整体从早期层向晚期层递增。

Figure 7: Llama-3-8B PPL vs. Size / Llama-3-8B 对比

Figure 7: PPL vs. Model Size Llama-3-8B{:width 600}

说明: 在 Llama-3-8B 上 RAMP 零样本迁移结果:4.22 GB(比 GPTQ 小 36%,比 AWQ 小 26%),PPL 6.47。

Figure 8: Llama-3-8B Bit Allocation / Llama-3-8B 比特分配

Figure 8: Bit Allocation Llama-3-8B{:width 600}

说明: Llama-3-8B 上的逐层 bit 分配模式与 Llama-2-7B 相似,验证了策略的迁移性。

Figure 9: First & Last 10 Layers / 头尾层比特分配

Figure 9: First and Last 10 Layers{:width 600}

说明: 跨模型的前 10 层和后 10 层 bit 分配对比,展示一致的结构化模式:早期层平均 ~3.77 bits,晚期层平均 ~4.52 bits。

Figure 10: Layer-wise Bit Assignments / 逐层比特分配

Figure 10: Layer-wise Bits{:width 600}

说明: 224 个可量化层的深度 vs. bit-width 散点图,清晰展示精度随深度递增的趋势。

Figure 11: Smoothed Bit Trend / 平滑比特趋势

Figure 11: Smoothed Bit Trend{:width 600}

说明: 平滑后的 bit-width 趋势线,进一步确认从输入到输出的精度递增规律。

Figure 12: Bit-flip Frequency / 比特翻转频率

Figure 12: Bit-flip Frequency{:width 600}

说明: 训练过程中每层 bit-width 翻转的频率。早期探索阶段翻转频繁,收敛后趋于稳定。

Figure 13: Transition Matrix / 比特转移概率

Figure 13: Bit Transition Probabilities{:width 600}

说明: 跨 episode 的 bit-width 转移概率矩阵,展示策略收敛后的稳定分配模式。

Figure 14: Mean Bit per Layer Type / 各层类型平均比特

Figure 14: Mean Bit per Layer Type{:width 600}

说明: 不同层类型(Q/K/V proj, output proj, gate/up/down proj)的平均 bit-width,输出投影层精度最高。

Figure 15: PCA of Layer Embeddings / 层嵌入 PCA 可视化

Figure 15: Layer Features PCA{:width 600}

说明: 11 维层嵌入的 PCA 降维可视化,按分配的 bit-width 着色,展示嵌入空间中的自然聚类。

Table 1: 模型内存占用与消费级 GPU 可行性

ModelParametersFP16 Size24 GB GPU 可行?
Llama-2-7B7.0B13.5 GB勉强
Llama-2-13B13.0B26.0 GB
Llama-3-8B8.0B16.1 GB
Mistral-7B7.0B14.5 GB勉强
GPT-3.5175B+350+ GB不可能

说明: 消费级 GPU 的内存限制凸显量化的必要性

Table 2: RAMP vs. 相关量化方法(Llama-2-7B, WikiText-2 PPL)

MethodBit 分配迁移性评估预算PPL年份
RTN-4统一单次5.942018
GPTQ-4统一逐层优化5.692023
AWQ-4统一单次5.602023
SmoothQuant-4统一单次5.622023
QuIP#-4统一单次5.622024
LRQ-4统一单次+预条件5.752025
SqueezeLLM混合+稀疏逐层5.572024
RAMP混合200 episodes5.542026

说明: RAMP 在所有方法中取得最低 PPL,且是唯一具备跨模型迁移能力的方法

Table 3: RAMP 框架组件与设计选择

组件选择理由
RL 算法SAC (off-policy, continuous)样本高效,稳定探索
状态表示11 维层嵌入抽象灵敏度,跨模型迁移
动作空间连续标量 → 离散 bit平滑探索
策略网络MLP (512-512-256) + LayerNorm异构灵敏度容量
Q 网络Twin critics + Polyak targets缓解过估计
质量奖励非对称 PPL 终端奖励优先保证基线质量
Bit 惩罚三区 cliff 约束可协商预算执行
Batch Size128稀疏奖励下稳定更新
学习率Adam (3×10⁻⁴)SAC 标准稳定性

说明: 各组件经过精心设计以适应量化搜索这一特定任务

Table 4: Scale Folding 消融(Llama-2-7B)

配置WikiText-2 PPLModel Size
无 Scale Folding5.583.80 GB
HALO (with folding)5.543.68 GB

说明: Scale Folding 同时改善质量(PPL -0.04)和压缩率(-0.12 GB)

Table 5: HALO GGUF 跨平台部署特性

平台设备延迟 (ms/token)PPL状态
GPURTX 3090~7-105.54可用
GPUA100~2-45.54可用
CPUIntel Xeon (16-core)~30-505.54可用
Apple SiliconM1/M2/M3~25-805.54可用
ARM 边缘Raspberry Pi 级>>300可运行
移动 SoCSnapdragon 级依赖厂商~5.5原型

说明: 单一 GGUF 文件在所有平台通用,无需定制 kernel

Table 6: 实验模型规格

ModelParamsVocabHiddenBlocksAttention
Llama-2-7B6.7B32K409632MHA
Llama-2-13B13B32K512040MHA
Llama-3-8B8B128K409632GQA
Mistral-7B7.2B32K409632SWA
DistilGPT-20.066B50K76812MHA

Table 7: 下游任务基准

Task类型Metric
PIQA常识推理Accuracy
HellaSwag常识推理Accuracy
WinoGrande常识推理Accuracy
ARC推理Accuracy

Table 8: Llama-2-7B 基线对比

MethodTypePPLSize (GB)
FP16上界5.5113.5
RTN-4Naive5.943.90
GPTQ-4SOTA5.693.90
AWQ-4SOTA5.603.90
QUIP#-4SOTA5.623.90
Q4_K_M部署5.613.95
RAMPMixed5.543.68

说明: RAMP 同时在 PPL 和 Size 上优于所有统一 4-bit 基线

Table 9: SAC 训练超参数

参数说明
学习率3×10⁻⁴Actor 和 Critics
Batch size128稳定性 vs. 效率
Replay buffer30,000~120 episodes × 250 steps
折扣因子 γ0.99标准 episodic RL
目标更新 τ0.005慢跟踪
梯度裁剪1.0稳定性
初始熵0.2log(0.2) ≈ -1.6
目标熵da-d_a自动
网络结构[512,512,256] (4 layers)容量与成本平衡
激活函数ReLU快速推理
归一化LayerNorm每个隐藏层
Warm-up20 episodes随机探索
Max episodes200-250经验收敛

Table 10: 量化配置

参数说明
方法逐组非对称标准 LLM PTQ
组大小128GGUF 兼容
Bit 范围{3,4,5}激进压缩
目标平均 bits4.0压缩目标
上限4.25奖励强制
校准数据WikiText-2 (128 seq., 2048 tokens)高效且有代表性
Scale Folding启用Sub-4-bit 稳定性

Table 11: Scale Folding 配置

参数说明
缩放s=act_scales = \sqrt{\text{act\_scale}}平滑
归一化ss/mean(s)s \leftarrow s / \text{mean}(s)幅度保持
稳定化+105+10^{-5}数值安全
范围逐通道 (Q/K/V/O/gate/up)细粒度调节
Norm 调整RMSNorm \leftarrow RMSNorm / ss等价变换
校准128 sequences复用量化数据

Table 12: Llama-2-7B 详细结果

MethodSize (GB)PPLSize vs RAMPPPL vs RAMP
FP1613.55.51+267%
RTN-43.905.94+6.0%+7.2%
GPTQ-43.905.69+6.0%+2.7%
AWQ-43.905.60+6.0%+1.1%
QUIP#-43.905.62+6.0%+1.4%
Q4_K_M3.955.61+7.3%+1.3%
RAMP3.685.54

关键发现: RAMP 比 AWQ 小 6%,PPL 更低 1.1%

Table 13: Llama-2-13B 结果(零样本迁移)

MethodSize (GB)PPLSize vs RAMPPPL vs RAMP
FP1626.04.85+259%
GPTQ-47.685.02+6.1%+1.4%
AWQ-47.684.97+6.1%+0.4%
Q4_K_M7.734.98+6.8%+0.6%
Direct SAC7.254.96+0.1%+0.2%
RAMP (zero-shot)7.244.95

关键发现: 零样本迁移(4.95)甚至优于直接训练(4.96),验证了策略的通用性

Table 14: Llama-3-8B 结果

MethodSize (GB)PPLSize vs RAMPPPL vs RAMP
FP1616.16.23+281%
GPTQ-45.748.58+36%+33%
AWQ-45.316.74+26%+4.2%
Q4_K_M5.486.79+30%+5.0%
RAMP (zero-shot)4.226.47

关键发现: RAMP 在 Llama-3-8B 上优势最为显著,比 GPTQ 小 36% 且 PPL 低 33%

Table 15: Mistral-7B 结果

MethodSize (GB)PPLSize vs RAMPPPL vs RAMP
FP1614.55.45+299%
GPTQ-43.855.71+6.1%+2.7%
AWQ-43.855.59+6.1%+0.5%
Q4_K_M3.905.60+7.4%+0.7%
Direct SAC3.625.58-0.3%+0.4%
RAMP (zero-shot)3.635.56

关键发现: 零样本迁移(5.56)同样优于直接训练(5.58)

Table 16: 零样本迁移汇总

目标模型Direct PPLDirect BitsZero-shot PPLZero-shot Bits胜者
Llama-2-13B4.963.664.953.66Zero-shot
Mistral-7B5.583.675.563.67Zero-shot

说明: 两个模型上零样本迁移均优于直接训练,可能因为源模型训练更充分

Table 17: 下游常识推理性能(Llama-2-7B)

MethodPIQAHellaSwagWinoGrandeARCAvg
FP1679.4%58.2%64.0%53.9%63.9%
AWQ-478.8%57.1%62.3%52.4%62.7%
Q4_K_M78.6%56.9%62.1%52.1%62.4%
RAMP79.2%57.9%63.7%53.6%63.6%
保留率 vs. FP1699.7%99.5%99.5%99.4%99.5%

关键发现: RAMP 保留 FP16 性能的 99.5%,在所有任务上超过统一 4-bit 基线

Table 18: 嵌入稳定性(Pearson 相关)

层角色Llama-2-7BLlama-2-13BMistral-7B相关系数
Embedding layer(0.87, 0.34, 0.12, …)(0.91, 0.36, 0.13, …)(0.85, 0.32, 0.11, …)r = 0.94
Attention o_proj(3.12, 0.18, 0.08, …)(3.15, 0.19, 0.09, …)(3.08, 0.17, 0.07, …)r = 0.96
MLP down_proj(2.87, 0.22, 0.11, …)(2.91, 0.23, 0.12, …)(2.84, 0.21, 0.10, …)r = 0.95
Output layer(1.24, 0.41, 0.19, …)(1.28, 0.42, 0.20, …)(1.21, 0.40, 0.18, …)r = 0.93

说明: 跨模型嵌入相关系数均 >0.93,验证归一化嵌入的跨模型不变性

Table 19: Scale Folding 消融

配置收敛 EpisodesFinal PPL稳定?
无 Folding>2505.58部分
有 Folding1505.54

关键发现: Scale Folding 加速收敛 40%+、降低 PPL、提高稳定性

Table 20: 奖励设计消融

奖励收敛 EpisodesFinal PPLVariance
Naive (Acc - λ Bits)>5.750.35
Linear2005.610.18
Quality-first (asymmetric + cliff)1505.540.05

关键发现: Quality-first 奖励收敛快 33%,方差低 7 倍

Table 21: SAC vs. PPO

AlgorithmGPU HoursFinal PPLVariance
PPO485.620.15
SAC65.540.03

关键发现: SAC 效率是 PPO 的 8 倍,方差降低 5 倍

Table 22: HALO vs. 定制 Kernel

方案吞吐量通用性/工程量
定制混合精度 Kernel最高(硬件特定)低(工程量大)
HALO / GGUF有竞争力高(零定制,广泛硬件)

Table 23: 年度能耗与碳排放估算(7B 模型,8h/天)

部署方式功率 (W)年 kWhCO₂ (kg)成本 ($)
Cloud A1003502,9201,168292
RTX 3090 FP162502,088835209
RTX 3090 RAMP8571128471
Xeon CPU RAMP6554621855
M1 laptop RAMP121014010

说明: RAMP 在 RTX 3090 上年碳排放降低 66-75%

Table 24: 11 维层嵌入规格

维度特征计算方式
1归一化深度i/(nlayers1)i / (n_{\text{layers}} - 1)
2对数输入维度log2(in_features/16)\log_2(\text{in\_features} / 16)
3对数输出维度log2(out_features/16)\log_2(\text{out\_features} / 16)
4权重标准差min(std(W)×10,1.0)\min(\text{std}(W) \times 10, 1.0)
5权重均值幅度$\min(\mathbb{E}[
6层类型标量0.0(Q/K/V), 0.25(O), 0.5(gate), 0.6(up), 0.75(down), 1.0(其他)
7位置桶0.0(早期), 0.5(中期), 1.0(晚期)
8均值激活缩放min(E[act_scales]×100,1.0)\min(\mathbb{E}[\text{act\_scales}] \times 100, 1.0)
9最大激活缩放min(max(act_scales)×1000,1.0)\min(\max(\text{act\_scales}) \times 1000, 1.0)
10前层 bit-width归一化除以 8
11运行均值 bit-width归一化除以 8

实验

数据集

数据集规模用途
Wikitext-22M tokens校准 + PPL 评估
PIQA2-choice下游评估
HellaSwag4-choice下游评估
WinoGrande2-choice下游评估
ARCMultiple-choice下游评估

实现细节

RL 算法: SAC,off-policy,连续动作空间

策略网络: MLP (512-512-256) + LayerNorm + ReLU

优化器: Adam, lr = 3×10⁻⁴

Batch Size: 128

Replay Buffer: 30,000 transitions

训练轮数: 200-250 episodes(~150 收敛)

训练时间: ~6 GPU 小时

量化方法: 逐组非对称量化,组大小 128

校准数据: WikiText-2, 128 序列, 2048 tokens

可视化结果

精度分配呈现清晰的结构化模式:早期层低精度(~3.77 bits),晚期层高精度(~4.52 bits)

输出投影层获得最高精度,MLP 中间层(gate/up proj)被最激进压缩

跨模型的嵌入 PCA 显示自然的 bit-width 聚类

批判性思考

优点

实用性强: 通过 GGUF/llama.cpp 实现零工程量跨平台部署

零样本迁移: 在源模型上训练的策略直接迁移到目标模型,无需重训,且结果甚至更好

高效搜索: 仅 6 GPU 小时即可找到高质量混合精度策略,比 PPO 快 8 倍

Scale Folding: 简洁的激活异常值处理技术,同时改善质量和压缩率

局限性

仅在 decoder-only Transformer(Llama、Mistral 家族)上验证,未覆盖 encoder-decoder 或 encoder-only 架构

仅支持离散 bit-width {3,4,5,6}\{3,4,5,6\},不支持更细粒度(如 2-bit)

逐层粒度分配,不支持逐头/逐通道等更细粒度

仅限 后训练量化场景,未探索 量化感知训练

静态分配,未探索输入自适应量化

潜在改进方向

扩展到 encoder-decoder 架构(如 T5、BART)

支持 2-bit 量化和更细粒度分配(逐头、逐通道)

结合 QAT 进一步提升质量

输入自适应动态精度分配

可复现性评估

  • 代码开源(未提供)
  • 预训练模型(未提供)
  • 训练细节完整(超参数详尽)
  • 数据集可获取(WikiText-2 公开)

关联笔记

基于

GPTQ: Hessian 感知量化基线

AWQ: 激活感知通道缩放基线

SmoothQuant: 激活-权重平衡的启发

对比

Quip#: 随机旋转量化方法

SqueezeLLM: 另一种混合精度量化方法

方法相关

混合精度: 核心量化策略

Soft Actor-Critic: 核心 RL 算法

PTQ: 后训练量化范式

Perplexity: 核心评估指标

GGUF: 部署格式

RMSNorm: Scale Folding 涉及的归一化层

llama.cpp: 推理后端

硬件/数据相关

Wikitext-2: 校准和评估数据集

速查卡片

RAMP: Reinforcement Adaptive Mixed-Precision Quantization for Efficient On-Device LLM Inference

  • 核心: 用 SAC 强化学习自动搜索 LLM 逐层混合精度量化策略
  • 方法: 11 维层嵌入 + SAC + Scale Folding + GGUF 部署
  • 结果: Llama-2-7B 上 PPL 5.54 / 3.68 GB,比 AWQ 小 6%、质量更好 1.1%;零样本迁移到 13B/Mistral
  • 代码: 未开源

笔记创建时间: 2026-03-19