LLVQ

分类: 量化与低秩

alias:: LLVQ title:: “Leech Lattice Vector Quantization for Efficient LLM Compression” method_name:: LLVQ authors:: Tycho F. A. van der Ouderaa, Mart van Baalen, Paul Whatmough, Markus Nagel year:: 2026 venue:: arXiv tags:: LLM量化, 向量量化, Leech格, 模型压缩, PTQ image_source:: online arxiv_html:: https://arxiv.org/html/2603.11021v1 created:: 2026-03-14

  • 论文笔记:Leech Lattice Vector Quantization for Efficient LLM Compression

  • 元信息

项目内容
机构Qualcomm AI Research(推测,基于作者背景)
日期March 2026
项目主页
对比基线Quip#, QTIP, GPTQ
链接arXiv
  • 一句话总结

  • 利用 24 维 Leech lattice 的数学结构实现无需显式码本的 LLM 2-bit 向量量化,在所有基准上超越 Quip#/QTIP/PVQ 等方法。

  • 核心贡献

  • Leech 格向量量化框架: 将 Adoul-Barth 最近邻搜索算法扩展为支持多 shell 联合搜索和角度搜索,首次将 24 维 Leech 格应用于 LLM 权重量化

  • 无码本层级索引方案: 设计 shell → class → 局部对称性的层级索引,通过 Golay 码结构隐式表示码本,无需存储显式码本

  • 可并行化反量化器: 基于快速模运算的全并行 GPU kernel,从索引重建量化向量,适合实际部署

  • Shape-Gain 量化策略: 证明 shape-gain 分解优于球面整形(spherical shaping),多 shell 联合比单 shell 实现更低的角失真

  • 问题背景

  • 要解决的问题

  • LLM 部署受限于巨大的内存占用,需要极低比特(2-bit)训练后量化 来压缩权重

  • 现有方法的局限

  • 标量量化(如 GPTQ + Quarot): 1 维量化在 2-bit 下性能急剧下降,Hadamard 旋转只能部分缓解

  • E8 格量化(如 Quip#): 8 维 E8 格的 rate-distortion 性能有限,信息保留率仅 86.1%

  • Trellis / Pyramid 方法(如 QTIP, PVQ): 需要显式码本存储或复杂的编码结构

  • 本文的动机

  • Leech lattice 是 24 维中已知最密球填充格(kissing number = 196,560),具有极优的 rate-distortion 特性

  • 高维格天然提供更好的量化粒度,24D 比 8D(E8)更接近 Shannon 极限

  • Leech 格的丰富代数结构(Golay 码、shell 分层)允许无码本的隐式编码

  • 方法详解

  • 整体框架

  • LLVQ 将权重矩阵分为 24 维的向量组,每组独立量化到 Leech 格点:

    • 预处理: 可选的 Hadamard 变换 旋转输入/输出以均匀化权重分布
    • 量化: 通过扩展的 Adoul-Barth 算法搜索最近格点
    • 编码: 层级索引方案将格点映射为紧凑比特串(~48 bits/vector = 2 bits/dim)
    • 反量化: 并行化 kernel 从索引恢复 24 维向量
  • Leech 格结构

  • 整数坐标表示

  • Leech 格 Λ24\Lambda_{24} 表示为缩放整数格的联合:

Λ24=18Lint,Lint=LevenLodd\Lambda_{24} = \frac{1}{\sqrt{8}} L^{\text{int}}, \quad L^{\text{int}} = L^{\text{even}} \cup L^{\text{odd}}
  • 偶子集 LevenL^{\text{even}}: 满足三个约束的整数向量 xZ24x \in \mathbb{Z}^{24}:

    • (i) xi0(mod2)x_i \equiv 0 \pmod{2}(所有坐标为偶数)
    • (ii) (x/2)mod2G24(x/2) \bmod 2 \in \mathcal{G}_{24}(半坐标的二进制模式属于 Golay 码
    • (iii) ixi0(mod8)\sum_i x_i \equiv 0 \pmod{8}(坐标和模 8 为 0)
  • 奇子集 LoddL^{\text{odd}}: 满足对应奇约束的向量:

    • (i) xi1(mod2)x_i \equiv 1 \pmod{2}
    • (ii) ((x1)/2)mod2G24((x-1)/2) \bmod 2 \in \mathcal{G}_{24}
    • (iii) ixi4(mod8)\sum_i x_i \equiv 4 \pmod{8}
  • Shell 分层

  • 格点按平方范数 v2=2m\|v\|^2 = 2m 分层为 shell:

Λ24(M)=m=2MShell(m),N(M)=m=2Mn(m)\Lambda_{24}(M) = \bigcup_{m=2}^{M} \text{Shell}(m), \quad N(M) = \sum_{m=2}^{M} n(m)
  • 其中 n(m)=Shell(m)n(m) = |\text{Shell}(m)| 是第 mm 层的格点数

  • Class 分解

  • 每个 shell 内的格点按坐标组成(multiset)进一步分为 class:

{a1p1,a2p2,,akpk},ipi=24\{a_1^{p_1}, a_2^{p_2}, \ldots, a_k^{p_k}\}, \quad \sum_i p_i = 24
  • 每个 class 的基数可分解为:
nclass=A2B24!i=1kpi!1jqj!n_{\text{class}} = A \cdot 2^B \cdot \frac{24!}{\prod_{i=1}^{k} p_i!} \cdot \frac{1}{\prod_j q_j!}
  • 其中 AA 是 Golay 精化数,2B2^B 是符号模式数

  • 量化方法

  • 方法一:球面整形(Spherical Shaping)

  • 直接搜索欧氏距离最近的格点:

q(w)=argminvΛ24(M)wv2q(w) = \arg\min_{v \in \Lambda_{24}(M)} \|w - v\|^2
  • 在单 shell 上等价于最大化点积:
xv2=x2+v22x,v\|x - v\|^2 = \|x\|^2 + \|v\|^2 - 2\langle x, v \rangle
  • 方法二:Shape-Gain 分解(推荐)

  • 将向量分解为方向(shape)和幅值(gain):

w=ru,r=wR,u=wwS23w = r \cdot u, \quad r = \|w\| \in \mathbb{R}, \quad u = \frac{w}{\|w\|} \in \mathcal{S}^{23}
  • 方向量化到 Leech 格球面码(角量化),幅值独立标量量化
  • 最优缩放因子的闭式解:
β=q(w)wq(w)q(w)\beta^* = \frac{q(w)^\top w}{q(w)^\top q(w)}
  • 分组最优缩放(group-wise):
β=(AA)1AWx\beta^* = (A^\top A)^{-1} A^\top W x
  • 层级索引方案

  • 编码: 格点 → (shell 编号, class 编号, 局部对称性) → 比特串

  • 解码: 通过连续模运算解包:

r=IclassmodA(Golay 精化)s=Iclass/Amod2B(符号模式)I=Iclass/(A2B)(排列秩)\begin{aligned} r &= I_{\text{class}} \bmod A \quad &\text{(Golay 精化)} \\ s &= \lfloor I_{\text{class}} / A \rfloor \bmod 2^B \quad &\text{(符号模式)} \\ I'' &= \lfloor I_{\text{class}} / (A \cdot 2^B) \rfloor \quad &\text{(排列秩)} \end{aligned}
  • Hessian 校正

  • 采用 GPTQ 风格的逐层校正,利用输入协方差矩阵:

Llocal=Tr(ΔWHinΔW),Hin=E[xx]\mathcal{L}_{\text{local}} = \text{Tr}(\Delta W \cdot H_{\text{in}} \cdot \Delta W^\top), \quad H_{\text{in}} = \mathbb{E}[xx^\top]
  • 通过 Cholesky 分解的下三角求解补偿剩余权重的量化误差

  • 轻量级微调

  • 学习每个线性层输入上的逐元素乘性校正

  • 使用 DCLM-edu 数据集的 6,100 条校准序列

  • 微调开销极低:不到 0.001 bits/weight(即使用 32-bit 精度存储)

  • 关键公式

  • 公式1: Leech 格定义

Λ24=18Lint,Lint=LevenLoddZ24\Lambda_{24} = \frac{1}{\sqrt{8}} L^{\text{int}}, \quad L^{\text{int}} = L^{\text{even}} \cup L^{\text{odd}} \subset \mathbb{Z}^{24}
  • 含义: Leech 格是缩放后的整数格联合,由偶/奇两个子集构成

  • 符号说明:

    • LevenL^{\text{even}}: 满足偶数、Golay 码和模 8 约束的整数向量集
    • LoddL^{\text{odd}}: 满足奇数和对应约束的整数向量集
  • 公式2: Shell 累积基数

N(M)=Λ24(M)=m=2Mn(m)N(M) = |\Lambda_{24}(M)| = \sum_{m=2}^{M} n(m)
  • 含义: 截至第 MM 层 shell 的总格点数,决定了可用比特率

  • 符号说明:

    • n(m)n(m): 第 mm 层 shell 的格点数
    • M=13M=13N(M)2.8×1014N(M) \approx 2.8 \times 10^{14},对应 2 bits/dim
  • 公式3: 信号量化噪声比

SQNR^bits=12log2(MSE^)\widehat{\text{SQNR}}_{\text{bits}} = -\frac{1}{2} \log_2(\widehat{\text{MSE}})
  • 含义: 衡量量化质量的信息论指标,越高表示量化失真越小

  • 符号说明:

    • MSE^=1ni=1nwiq(wi)22/D\widehat{\text{MSE}} = \frac{1}{n} \sum_{i=1}^{n} \|w_i - q(w_i)\|_2^2 / D: 经验均方误差
  • 公式4: 理论极限

MSE(R)=σ222R\text{MSE}^*(R) = \sigma^2 \cdot 2^{-2R}
  • 含义: Shannon 率失真理论给出的最低可达 MSE

  • 符号说明:

    • RR: 比特率(bits/dim)
    • σ2\sigma^2: 源方差
  • 公式5: 信息保留率

Ret(%)=SQNR^bitsR×100\text{Ret}(\%) = \frac{\widehat{\text{SQNR}}_{\text{bits}}}{R} \times 100
  • 含义: 量化方法达到 Shannon 极限的百分比,LLVQ shape-gain 达到 92.1%

  • 符号说明:

    • RR: 目标比特率
  • 公式6: 最优缩放因子

β=q(w)wq(w)q(w)\beta^* = \frac{q(w)^\top w}{q(w)^\top q(w)}
  • 含义: 给定量化方向后的最优缩放因子,最小化 wβq(w)22\|w - \beta q(w)\|_2^2

  • 符号说明:

    • q(w)q(w): 量化后的向量
    • ww: 原始权重向量
  • 公式7: Hessian 校正目标

Llocal=Tr(ΔWHinΔW)\mathcal{L}_{\text{local}} = \text{Tr}(\Delta W \cdot H_{\text{in}} \cdot \Delta W^\top)
  • 含义: 基于输入 Hessian 矩阵的逐层量化误差最小化目标

  • 符号说明:

    • ΔW=WW^\Delta W = W - \hat{W}: 量化误差矩阵
    • Hin=E[xx]H_{\text{in}} = \mathbb{E}[xx^\top]: 输入激活的协方差矩阵
  • 公式8: 反量化索引解包

r=IclassmodAs=Iclass/Amod2BI=Iclass/(A2B)\begin{aligned} r &= I_{\text{class}} \bmod A \\ s &= \lfloor I_{\text{class}} / A \rfloor \bmod 2^B \\ I'' &= \lfloor I_{\text{class}} / (A \cdot 2^B) \rfloor \end{aligned}
  • 含义: 通过连续模运算从紧凑索引恢复 Golay 精化、符号模式和排列秩

  • 符号说明:

    • AA: Golay 精化数
    • BB: 符号自由度位数
    • IclassI_{\text{class}}: class 内的局部索引
  • 关键图表

  • Figure 1: SQNR vs Bitrate on Gaussian Source / 高斯源上的 SQNR-比特率曲线

Figure 1: SQNR vs Bitrate{:width 600}

  • 说明: 不同量化方法在高斯源上的 SQNR 随比特率变化。LLVQ(shape-gain)在 2 bits/dim 处达到 1.84 bits SQNR(信息保留率 92.1%),显著优于 E8 格(86.1%)和标量方法(69-77%),逼近 Shannon 理论极限(100%)。

  • Figure 2: Spherical Shaping / 球面整形示意图

Figure 2: Spherical Shaping{:width 600}

  • 说明: 球面整形方法的 ball-cut 示意。在 Λ24(M)B(0,R)\Lambda_{24}(M) \cap \mathbb{B}(0, R) 内搜索欧氏距离最近的格点作为量化结果。

  • Figure 3: Shape-Gain with Independent Quantization / 独立 Shape-Gain 量化

Figure 3: Shape-Gain Independent{:width 600}

  • 说明: Shape-gain 独立量化方案:将向量分解为方向 uu 和幅值 rr,分别量化后组合。方向映射到 Leech 格球面码,幅值用标量量化器处理。

  • Figure 4: Shape-Gain with Optimal Scales / 最优缩放 Shape-Gain 量化

Figure 4: Shape-Gain Optimal{:width 600}

  • 说明: 改进的 shape-gain 方案,在确定方向后通过闭式解 β=q(w)w/q(w)q(w)\beta^* = q(w)^\top w / q(w)^\top q(w) 计算最优缩放因子,进一步降低量化误差。

  • Figure 5: Dequantizer Architecture / 反量化器架构

Figure 5: Dequantizer{:width 600}

  • 说明: 五步反量化流程:Shell 识别 → Class 识别 → 解包局部对称性(Golay 精化、符号模式、排列秩)→ 重建整数向量 → 缩放输出。全部操作使用小型静态查找表和整数运算,无向量间依赖,可完全并行化。

  • Table 1: Shell Structure of the Leech Lattice / Leech 格 Shell 结构

mm半径 2m\sqrt{2m}Shell 基数 n(m)n(m)累积计数 N(m)N(m)Bits/dim
22196,560196,5600.75
36\sqrt{6}16,773,12016,969,6801.042
4222\sqrt{2}398,034,000415,003,6801.208
510\sqrt{10}4,629,381,1205,044,384,8001.375
1326\sqrt{26}16,993,109,532,672280,974,212,784,7202.000
1938\sqrt{38}1,104,550,081,689,60023,546,209,100,646,9602.292
  • 说明: Leech 格的 shell 层级结构。m=13m=13 时累积格点数约 2.8×10142.8 \times 10^{14},对应 2 bits/dim 的编码容量(log2(N(13))/242.0\log_2(N(13))/24 \approx 2.0)。

  • Table 2: Coordinate Composition by Shell and Class / Shell 内 Class 坐标组成

mmParityCount±6\pm 6±5\pm 5±4\pm 4±3\pm 3±2\pm 2±1\pm 100
2even1,10400200022
2even97,15200008016
2odd98,30400010230
3even3,108,86400108015
3even5,275,648000012012
3odd98,30401000230
3odd8,290,30400030210
4even170,01600400020
4even4800000023
4even46,632,96000208014
4even777,21610007016
4even126,615,552001012011
4even24,870,91200001608
4odd24,870,91201020210
4odd174,096,38400050190
  • 说明: 每个 class 由坐标绝对值的 multiset 定义。偶子集坐标全为偶数,奇子集坐标全为奇数。class 数量随 shell 编号增长而迅速增加。

  • Table 3: LLM Quantization Results (Own Pipeline) / 统一流水线对比

  • Llama-2 7B

MethodFinetunedBPWWiki \downarrowMMLU \uparrowCSR \uparrow
Baseline165.1145.770.4
GPTQ + Rotation (Quarot)No241.8727.041.7
Quip#/E8P12No27.9630.561.4
LLVQ (spherical)No27.6133.462.1
LLVQ (shape-gain)No26.8334.964.6
Quip#/E8P12Yes25.7330.664.9
LLVQ (spherical)Yes25.6035.865.3
LLVQ (shape-gain)Yes25.4837.366.8
  • Llama-3 8B

MethodFinetunedBPWWiki \downarrowMMLU \uparrowCSR \uparrow
Baseline165.7565.574.6
GPTQ + Rotation (Quarot)No294.3725.243.3
Quip#/E8P12No212.2540.562.0
LLVQ (shape-gain)No29.3548.766.4
Quip#/E8P12Yes27.9248.166.7
LLVQ (shape-gain)Yes27.2953.470.0
  • Ministral-3 8B Instruct

MethodFinetunedBPWWiki \downarrowMMLU \uparrowCSR \uparrow
Baseline166.4465.176.4
Quip#/E8P12No210.8349.665.7
LLVQ (shape-gain)No28.5656.671.3
Quip#/E8P12Yes27.5454.970.6
LLVQ (shape-gain)Yes27.0457.672.5
  • Qwen-3 4B

MethodFinetunedBPWWiki \downarrowMMLU \uparrowCSR \uparrow
Baseline1612.4170.271.2
Quip#/E8P12No221.1548.657.2
LLVQ (shape-gain)No215.5459.364.1
Quip#/E8P12Yes210.5252.965.2
LLVQ (shape-gain)Yes29.5160.967.6
  • Qwen-3 8B

MethodFinetunedBPWWiki \downarrowMMLU \uparrowCSR \uparrow
Baseline168.9974.974.0
Quip#/E8P12No212.8060.567.0
LLVQ (shape-gain)No210.8267.269.9
Quip#/E8P12Yes28.3163.770.1
LLVQ (shape-gain)Yes27.7968.872.6
  • 说明: 在统一的量化流水线下对比。LLVQ shape-gain 在所有 5 个模型上全面超越 Quip#/E8P,无论是否微调。特别是在 Llama-3 8B 上,微调后 MMLU 从 48.1%(Quip#)提升到 53.4%,提升 5.3 个百分点。

  • Table 4: Information Retention at 2 bits/dim on Gaussian Source / 高斯源信息保留率

MethodDimMSE \downarrowSQNR (bits) \uparrowRetention (%) \uparrow
Uniform10.151.3769
Lloyd-Max10.121.5377
E8 coset80.1031.6482.0
Quip#/E8P80.0921.7286.1
LLVQ (spherical)240.0841.7989.4
LLVQ (shape-gain)240.0781.8492.1
Theoretical limit0.06252100
  • 说明: LLVQ shape-gain 达到 Shannon 极限的 92.1%,远超 8 维 E8 方法(86.1%)。高维格的优势在信息论层面得到清晰验证。

  • Table 5: Llama-2 7B Literature Comparison / 文献对比

MethodFinetunedBPWWiki \downarrowArc-C \uparrowArc-E \uparrowBoolQ \uparrowWino \uparrowHella \uparrowPiQA \uparrow
Baseline165.1143.275.679.369.957.178.1
Quip# (reported)No28.2232.542.862.362.471.2
LLVQ (shape-gain)No26.8335.569.873.066.949.775.2
AQLMYes2.076.9332.863.774.865.7
Quip#Yes26.1935.265.375.464.9
QTIPYes25.8635.765.675.964.7
PV-tuningYes25.8438.471.266.753.577.0
LLVQ (shape-gain)Yes25.4839.872.975.366.354.177.1
  • 说明: 与文献报告值对比,LLVQ 在 Wikitext-2 困惑度上取得最佳结果(5.48 vs QTIP 5.86, PV-tuning 5.84),在多数下游任务上也领先。

  • Table 6: Hadamard Rotation Ablation / Hadamard 旋转消融

MethodDimBPWHadamardWiki \downarrowMMLU \uparrowCSR \uparrow
Integer (GPTQ)12None3,411.626.639.7
Integer (Quarot)12Input41.8727.041.7
E8P82None105.9824.844.9
E8P (Quip#)82In+Out7.9630.561.4
LLVQ (spherical)242None191.9024.053.5
LLVQ (spherical)242Input6.8035.165.4
LLVQ (shape-gain)242None7.2729.861.5
LLVQ (shape-gain)242Input6.9036.063.6
LLVQ (shape-gain)242In+Out6.8334.964.6
  • 关键发现: LLVQ shape-gain 在不使用任何 Hadamard 旋转时(Wiki 7.27)就已优于 Quip# 使用双向旋转的结果(Wiki 7.96)。这说明 24 维格的高维结构天然减少了对预处理旋转的依赖。不过加上 Input 旋转仍能进一步提升(7.27 → 6.90)。

  • 实验结果

  • 数据集

数据集规模特点用途
Wikitext-2语言建模基准困惑度评估
MMLU57 任务多任务语言理解零样本准确率
ARC-Challenge/Easy常识推理零样本准确率
BoolQ布尔问答零样本准确率
Winogrande常识推理零样本准确率
HellaSwag常识推理零样本准确率
PiQA物理直觉零样本准确率
DCLM-edu6,100 seq校准数据PTQ 校准 + 微调
  • 实现细节

  • 量化粒度: 24 维向量组(对应 Leech 格维度)

  • 比特率: 2 bits/weight(通过 m=13m=13 的 shell 联合实现)

  • 校准: 6,100 条 DCLM-edu 序列,逐层 Hessian 估计

  • 微调: 1M token,学习逐元素乘性校正(开销 < 0.001 bits/weight)

  • 测试模型: Llama-2 7B, Llama-3 8B, Ministral-3 8B, Qwen-3 4B, Qwen-3 8B

  • 可视化结果

  • Shape-gain 在所有模型上一致优于 spherical shaping,验证了方向-幅值分离量化的理论优势

  • 高维格(24D)相比低维格(8D E8)的优势随模型规模增大而更加明显

  • 不使用旋转时 LLVQ shape-gain 仍然表现强劲,说明方法的鲁棒性

  • 批判性思考

  • 优点

  • 理论根基深厚: 建立在 Leech 格(24 维最密球填充)的严格数学理论上,率失真性能有信息论保证

  • 无码本设计精巧: 利用 Golay 码的代数结构隐式编码,避免存储 2.8×10142.8 \times 10^{14} 个码本条目

  • 实验全面且公平: 统一流水线对比消除了实现差异,文献对比也覆盖了主流方法

  • 消融实验充分: Hadamard 旋转消融揭示了高维格的独特优势(无需旋转即可超越低维方法+旋转)

  • 局限性

  • 仅限 2 bits/weight: 未展示 3-bit、4-bit 等其他常用比特率的结果,灵活性待验证

  • 推理速度未报告: 反量化器的实际 GPU 吞吐量、延迟未给出定量数据

  • 24 维分组限制: 要求隐藏维度能被 24 整除,对某些架构可能需要 padding

  • 代码未开源: 缺乏代码和预训练模型,难以独立复现

  • 潜在改进方向

  • 探索更灵活的比特率分配(不同层使用不同 shell 数量的 混合精度 策略)

  • 设计高效的 CUDA kernel 并给出端到端推理加速的 benchmark

  • 研究与 LoRA 等参数高效微调方法的结合

  • 扩展到激活量化(目前仅量化权重)

  • 可复现性评估

  • 代码开源

  • 预训练模型

  • 训练细节完整(校准数据、微调策略描述清楚)

  • 数据集可获取

  • 关联笔记

  • 基于

  • Leech lattice: 24 维最密格,LLVQ 的核心数学结构

  • Golay 码: 扩展 Golay 码 G24\mathcal{G}_{24} 用于定义 Leech 格的坐标约束和索引方案

  • 对比

  • Quip#: 基于 8 维 E8 格的主要对比基线,LLVQ 全面超越

  • QTIP: 基于 Trellis 的方法,文献对比中 LLVQ 在 perplexity 上更优

  • GPTQ: 标量量化基线,在 2-bit 下性能大幅落后

  • 方法相关

  • PTQ: LLVQ 属于训练后量化框架

  • 向量量化: 核心技术,将标量量化扩展到 24 维

  • Shape-Gain 量化: 方向-幅值分离的量化策略

  • Hadamard 变换: 可选的预处理旋转,用于均匀化权重分布

  • Shannon 率失真: 量化性能的理论基准

  • 硬件/数据相关

  • GPU 并行化的反量化 kernel,使用整数运算和小型查找表

  • 速查卡片

  • Leech Lattice Vector Quantization for Efficient LLM Compression

    • 核心: 24 维 Leech 格向量量化,无需显式码本,达到 Shannon 极限的 92.1%
    • 方法: Adoul-Barth 扩展搜索 + 层级索引 + Shape-Gain 分解 + 可并行反量化器
    • 结果: 2 bits/weight 下全面超越 Quip#/QTIP/PVQ,Llama-2 7B Wiki PPL 5.48
    • 代码: 未开源

笔记创建时间: 2026-03-14