LLVQ
alias:: LLVQ title:: “Leech Lattice Vector Quantization for Efficient LLM Compression” method_name:: LLVQ authors:: Tycho F. A. van der Ouderaa, Mart van Baalen, Paul Whatmough, Markus Nagel year:: 2026 venue:: arXiv tags:: LLM量化, 向量量化, Leech格, 模型压缩, PTQ image_source:: online arxiv_html:: https://arxiv.org/html/2603.11021v1 created:: 2026-03-14
-
论文笔记:Leech Lattice Vector Quantization for Efficient LLM Compression
-
元信息
| 项目 | 内容 |
|---|---|
| 机构 | Qualcomm AI Research(推测,基于作者背景) |
| 日期 | March 2026 |
| 项目主页 | 无 |
| 对比基线 | Quip#, QTIP, GPTQ |
| 链接 | arXiv |
-
一句话总结
-
利用 24 维 Leech lattice 的数学结构实现无需显式码本的 LLM 2-bit 向量量化,在所有基准上超越 Quip#/QTIP/PVQ 等方法。
-
核心贡献
-
Leech 格向量量化框架: 将 Adoul-Barth 最近邻搜索算法扩展为支持多 shell 联合搜索和角度搜索,首次将 24 维 Leech 格应用于 LLM 权重量化
-
无码本层级索引方案: 设计 shell → class → 局部对称性的层级索引,通过 Golay 码结构隐式表示码本,无需存储显式码本
-
可并行化反量化器: 基于快速模运算的全并行 GPU kernel,从索引重建量化向量,适合实际部署
-
Shape-Gain 量化策略: 证明 shape-gain 分解优于球面整形(spherical shaping),多 shell 联合比单 shell 实现更低的角失真
-
问题背景
-
要解决的问题
-
LLM 部署受限于巨大的内存占用,需要极低比特(2-bit)训练后量化 来压缩权重
-
现有方法的局限
-
标量量化(如 GPTQ + Quarot): 1 维量化在 2-bit 下性能急剧下降,Hadamard 旋转只能部分缓解
-
E8 格量化(如 Quip#): 8 维 E8 格的 rate-distortion 性能有限,信息保留率仅 86.1%
-
Trellis / Pyramid 方法(如 QTIP, PVQ): 需要显式码本存储或复杂的编码结构
-
本文的动机
-
Leech lattice 是 24 维中已知最密球填充格(kissing number = 196,560),具有极优的 rate-distortion 特性
-
高维格天然提供更好的量化粒度,24D 比 8D(E8)更接近 Shannon 极限
-
Leech 格的丰富代数结构(Golay 码、shell 分层)允许无码本的隐式编码
-
方法详解
-
整体框架
-
LLVQ 将权重矩阵分为 24 维的向量组,每组独立量化到 Leech 格点:
- 预处理: 可选的 Hadamard 变换 旋转输入/输出以均匀化权重分布
- 量化: 通过扩展的 Adoul-Barth 算法搜索最近格点
- 编码: 层级索引方案将格点映射为紧凑比特串(~48 bits/vector = 2 bits/dim)
- 反量化: 并行化 kernel 从索引恢复 24 维向量
-
Leech 格结构
-
整数坐标表示
-
Leech 格 表示为缩放整数格的联合:
-
偶子集 : 满足三个约束的整数向量 :
- (i) (所有坐标为偶数)
- (ii) (半坐标的二进制模式属于 Golay 码)
- (iii) (坐标和模 8 为 0)
-
奇子集 : 满足对应奇约束的向量:
- (i)
- (ii)
- (iii)
-
Shell 分层
-
格点按平方范数 分层为 shell:
-
其中 是第 层的格点数
-
Class 分解
-
每个 shell 内的格点按坐标组成(multiset)进一步分为 class:
- 每个 class 的基数可分解为:
-
其中 是 Golay 精化数, 是符号模式数
-
量化方法
-
方法一:球面整形(Spherical Shaping)
-
直接搜索欧氏距离最近的格点:
- 在单 shell 上等价于最大化点积:
-
方法二:Shape-Gain 分解(推荐)
-
将向量分解为方向(shape)和幅值(gain):
- 方向量化到 Leech 格球面码(角量化),幅值独立标量量化
- 最优缩放因子的闭式解:
- 分组最优缩放(group-wise):
-
层级索引方案
-
编码: 格点 → (shell 编号, class 编号, 局部对称性) → 比特串
-
解码: 通过连续模运算解包:
-
Hessian 校正
-
采用 GPTQ 风格的逐层校正,利用输入协方差矩阵:
-
通过 Cholesky 分解的下三角求解补偿剩余权重的量化误差
-
轻量级微调
-
学习每个线性层输入上的逐元素乘性校正
-
使用 DCLM-edu 数据集的 6,100 条校准序列
-
微调开销极低:不到 0.001 bits/weight(即使用 32-bit 精度存储)
-
关键公式
-
公式1: Leech 格定义
-
含义: Leech 格是缩放后的整数格联合,由偶/奇两个子集构成
-
符号说明:
- : 满足偶数、Golay 码和模 8 约束的整数向量集
- : 满足奇数和对应约束的整数向量集
-
公式2: Shell 累积基数
-
含义: 截至第 层 shell 的总格点数,决定了可用比特率
-
符号说明:
- : 第 层 shell 的格点数
- 时 ,对应 2 bits/dim
-
公式3: 信号量化噪声比
-
含义: 衡量量化质量的信息论指标,越高表示量化失真越小
-
符号说明:
- : 经验均方误差
-
公式4: 理论极限
-
含义: Shannon 率失真理论给出的最低可达 MSE
-
符号说明:
- : 比特率(bits/dim)
- : 源方差
-
公式5: 信息保留率
-
含义: 量化方法达到 Shannon 极限的百分比,LLVQ shape-gain 达到 92.1%
-
符号说明:
- : 目标比特率
-
公式6: 最优缩放因子
-
含义: 给定量化方向后的最优缩放因子,最小化
-
符号说明:
- : 量化后的向量
- : 原始权重向量
-
公式7: Hessian 校正目标
-
含义: 基于输入 Hessian 矩阵的逐层量化误差最小化目标
-
符号说明:
- : 量化误差矩阵
- : 输入激活的协方差矩阵
-
公式8: 反量化索引解包
-
含义: 通过连续模运算从紧凑索引恢复 Golay 精化、符号模式和排列秩
-
符号说明:
- : Golay 精化数
- : 符号自由度位数
- : class 内的局部索引
-
关键图表
-
Figure 1: SQNR vs Bitrate on Gaussian Source / 高斯源上的 SQNR-比特率曲线
{:width 600}
-
说明: 不同量化方法在高斯源上的 SQNR 随比特率变化。LLVQ(shape-gain)在 2 bits/dim 处达到 1.84 bits SQNR(信息保留率 92.1%),显著优于 E8 格(86.1%)和标量方法(69-77%),逼近 Shannon 理论极限(100%)。
-
Figure 2: Spherical Shaping / 球面整形示意图
{:width 600}
-
说明: 球面整形方法的 ball-cut 示意。在 内搜索欧氏距离最近的格点作为量化结果。
-
Figure 3: Shape-Gain with Independent Quantization / 独立 Shape-Gain 量化
{:width 600}
-
说明: Shape-gain 独立量化方案:将向量分解为方向 和幅值 ,分别量化后组合。方向映射到 Leech 格球面码,幅值用标量量化器处理。
-
Figure 4: Shape-Gain with Optimal Scales / 最优缩放 Shape-Gain 量化
{:width 600}
-
说明: 改进的 shape-gain 方案,在确定方向后通过闭式解 计算最优缩放因子,进一步降低量化误差。
-
Figure 5: Dequantizer Architecture / 反量化器架构
{:width 600}
-
说明: 五步反量化流程:Shell 识别 → Class 识别 → 解包局部对称性(Golay 精化、符号模式、排列秩)→ 重建整数向量 → 缩放输出。全部操作使用小型静态查找表和整数运算,无向量间依赖,可完全并行化。
-
Table 1: Shell Structure of the Leech Lattice / Leech 格 Shell 结构
| 半径 | Shell 基数 | 累积计数 | Bits/dim | |
|---|---|---|---|---|
| 2 | 2 | 196,560 | 196,560 | 0.75 |
| 3 | 16,773,120 | 16,969,680 | 1.042 | |
| 4 | 398,034,000 | 415,003,680 | 1.208 | |
| 5 | 4,629,381,120 | 5,044,384,800 | 1.375 | |
| 13 | 16,993,109,532,672 | 280,974,212,784,720 | 2.000 | |
| 19 | 1,104,550,081,689,600 | 23,546,209,100,646,960 | 2.292 |
-
说明: Leech 格的 shell 层级结构。 时累积格点数约 ,对应 2 bits/dim 的编码容量()。
-
Table 2: Coordinate Composition by Shell and Class / Shell 内 Class 坐标组成
| Parity | Count | ||||||||
|---|---|---|---|---|---|---|---|---|---|
| 2 | even | 1,104 | 0 | 0 | 2 | 0 | 0 | 0 | 22 |
| 2 | even | 97,152 | 0 | 0 | 0 | 0 | 8 | 0 | 16 |
| 2 | odd | 98,304 | 0 | 0 | 0 | 1 | 0 | 23 | 0 |
| 3 | even | 3,108,864 | 0 | 0 | 1 | 0 | 8 | 0 | 15 |
| 3 | even | 5,275,648 | 0 | 0 | 0 | 0 | 12 | 0 | 12 |
| 3 | odd | 98,304 | 0 | 1 | 0 | 0 | 0 | 23 | 0 |
| 3 | odd | 8,290,304 | 0 | 0 | 0 | 3 | 0 | 21 | 0 |
| 4 | even | 170,016 | 0 | 0 | 4 | 0 | 0 | 0 | 20 |
| 4 | even | 48 | 0 | 0 | 0 | 0 | 0 | 0 | 23 |
| 4 | even | 46,632,960 | 0 | 0 | 2 | 0 | 8 | 0 | 14 |
| 4 | even | 777,216 | 1 | 0 | 0 | 0 | 7 | 0 | 16 |
| 4 | even | 126,615,552 | 0 | 0 | 1 | 0 | 12 | 0 | 11 |
| 4 | even | 24,870,912 | 0 | 0 | 0 | 0 | 16 | 0 | 8 |
| 4 | odd | 24,870,912 | 0 | 1 | 0 | 2 | 0 | 21 | 0 |
| 4 | odd | 174,096,384 | 0 | 0 | 0 | 5 | 0 | 19 | 0 |
-
说明: 每个 class 由坐标绝对值的 multiset 定义。偶子集坐标全为偶数,奇子集坐标全为奇数。class 数量随 shell 编号增长而迅速增加。
-
Table 3: LLM Quantization Results (Own Pipeline) / 统一流水线对比
-
Llama-2 7B
| Method | Finetuned | BPW | Wiki | MMLU | CSR |
|---|---|---|---|---|---|
| Baseline | — | 16 | 5.11 | 45.7 | 70.4 |
| GPTQ + Rotation (Quarot) | No | 2 | 41.87 | 27.0 | 41.7 |
| Quip#/E8P12 | No | 2 | 7.96 | 30.5 | 61.4 |
| LLVQ (spherical) | No | 2 | 7.61 | 33.4 | 62.1 |
| LLVQ (shape-gain) | No | 2 | 6.83 | 34.9 | 64.6 |
| Quip#/E8P12 | Yes | 2 | 5.73 | 30.6 | 64.9 |
| LLVQ (spherical) | Yes | 2 | 5.60 | 35.8 | 65.3 |
| LLVQ (shape-gain) | Yes | 2 | 5.48 | 37.3 | 66.8 |
-
Llama-3 8B
| Method | Finetuned | BPW | Wiki | MMLU | CSR |
|---|---|---|---|---|---|
| Baseline | — | 16 | 5.75 | 65.5 | 74.6 |
| GPTQ + Rotation (Quarot) | No | 2 | 94.37 | 25.2 | 43.3 |
| Quip#/E8P12 | No | 2 | 12.25 | 40.5 | 62.0 |
| LLVQ (shape-gain) | No | 2 | 9.35 | 48.7 | 66.4 |
| Quip#/E8P12 | Yes | 2 | 7.92 | 48.1 | 66.7 |
| LLVQ (shape-gain) | Yes | 2 | 7.29 | 53.4 | 70.0 |
-
Ministral-3 8B Instruct
| Method | Finetuned | BPW | Wiki | MMLU | CSR |
|---|---|---|---|---|---|
| Baseline | — | 16 | 6.44 | 65.1 | 76.4 |
| Quip#/E8P12 | No | 2 | 10.83 | 49.6 | 65.7 |
| LLVQ (shape-gain) | No | 2 | 8.56 | 56.6 | 71.3 |
| Quip#/E8P12 | Yes | 2 | 7.54 | 54.9 | 70.6 |
| LLVQ (shape-gain) | Yes | 2 | 7.04 | 57.6 | 72.5 |
-
Qwen-3 4B
| Method | Finetuned | BPW | Wiki | MMLU | CSR |
|---|---|---|---|---|---|
| Baseline | — | 16 | 12.41 | 70.2 | 71.2 |
| Quip#/E8P12 | No | 2 | 21.15 | 48.6 | 57.2 |
| LLVQ (shape-gain) | No | 2 | 15.54 | 59.3 | 64.1 |
| Quip#/E8P12 | Yes | 2 | 10.52 | 52.9 | 65.2 |
| LLVQ (shape-gain) | Yes | 2 | 9.51 | 60.9 | 67.6 |
-
Qwen-3 8B
| Method | Finetuned | BPW | Wiki | MMLU | CSR |
|---|---|---|---|---|---|
| Baseline | — | 16 | 8.99 | 74.9 | 74.0 |
| Quip#/E8P12 | No | 2 | 12.80 | 60.5 | 67.0 |
| LLVQ (shape-gain) | No | 2 | 10.82 | 67.2 | 69.9 |
| Quip#/E8P12 | Yes | 2 | 8.31 | 63.7 | 70.1 |
| LLVQ (shape-gain) | Yes | 2 | 7.79 | 68.8 | 72.6 |
-
说明: 在统一的量化流水线下对比。LLVQ shape-gain 在所有 5 个模型上全面超越 Quip#/E8P,无论是否微调。特别是在 Llama-3 8B 上,微调后 MMLU 从 48.1%(Quip#)提升到 53.4%,提升 5.3 个百分点。
-
Table 4: Information Retention at 2 bits/dim on Gaussian Source / 高斯源信息保留率
| Method | Dim | MSE | SQNR (bits) | Retention (%) |
|---|---|---|---|---|
| Uniform | 1 | 0.15 | 1.37 | 69 |
| Lloyd-Max | 1 | 0.12 | 1.53 | 77 |
| E8 coset | 8 | 0.103 | 1.64 | 82.0 |
| Quip#/E8P | 8 | 0.092 | 1.72 | 86.1 |
| LLVQ (spherical) | 24 | 0.084 | 1.79 | 89.4 |
| LLVQ (shape-gain) | 24 | 0.078 | 1.84 | 92.1 |
| Theoretical limit | — | 0.0625 | 2 | 100 |
-
说明: LLVQ shape-gain 达到 Shannon 极限的 92.1%,远超 8 维 E8 方法(86.1%)。高维格的优势在信息论层面得到清晰验证。
-
Table 5: Llama-2 7B Literature Comparison / 文献对比
| Method | Finetuned | BPW | Wiki | Arc-C | Arc-E | BoolQ | Wino | Hella | PiQA |
|---|---|---|---|---|---|---|---|---|---|
| Baseline | — | 16 | 5.11 | 43.2 | 75.6 | 79.3 | 69.9 | 57.1 | 78.1 |
| Quip# (reported) | No | 2 | 8.22 | 32.5 | 42.8 | 62.3 | 62.4 | — | 71.2 |
| LLVQ (shape-gain) | No | 2 | 6.83 | 35.5 | 69.8 | 73.0 | 66.9 | 49.7 | 75.2 |
| AQLM | Yes | 2.07 | 6.93 | 32.8 | 63.7 | 74.8 | 65.7 | — | — |
| Quip# | Yes | 2 | 6.19 | 35.2 | 65.3 | 75.4 | 64.9 | — | — |
| QTIP | Yes | 2 | 5.86 | 35.7 | 65.6 | 75.9 | 64.7 | — | — |
| PV-tuning | Yes | 2 | 5.84 | 38.4 | 71.2 | — | 66.7 | 53.5 | 77.0 |
| LLVQ (shape-gain) | Yes | 2 | 5.48 | 39.8 | 72.9 | 75.3 | 66.3 | 54.1 | 77.1 |
-
说明: 与文献报告值对比,LLVQ 在 Wikitext-2 困惑度上取得最佳结果(5.48 vs QTIP 5.86, PV-tuning 5.84),在多数下游任务上也领先。
-
Table 6: Hadamard Rotation Ablation / Hadamard 旋转消融
| Method | Dim | BPW | Hadamard | Wiki | MMLU | CSR |
|---|---|---|---|---|---|---|
| Integer (GPTQ) | 1 | 2 | None | 3,411.6 | 26.6 | 39.7 |
| Integer (Quarot) | 1 | 2 | Input | 41.87 | 27.0 | 41.7 |
| E8P | 8 | 2 | None | 105.98 | 24.8 | 44.9 |
| E8P (Quip#) | 8 | 2 | In+Out | 7.96 | 30.5 | 61.4 |
| LLVQ (spherical) | 24 | 2 | None | 191.90 | 24.0 | 53.5 |
| LLVQ (spherical) | 24 | 2 | Input | 6.80 | 35.1 | 65.4 |
| LLVQ (shape-gain) | 24 | 2 | None | 7.27 | 29.8 | 61.5 |
| LLVQ (shape-gain) | 24 | 2 | Input | 6.90 | 36.0 | 63.6 |
| LLVQ (shape-gain) | 24 | 2 | In+Out | 6.83 | 34.9 | 64.6 |
-
关键发现: LLVQ shape-gain 在不使用任何 Hadamard 旋转时(Wiki 7.27)就已优于 Quip# 使用双向旋转的结果(Wiki 7.96)。这说明 24 维格的高维结构天然减少了对预处理旋转的依赖。不过加上 Input 旋转仍能进一步提升(7.27 → 6.90)。
-
实验结果
-
数据集
| 数据集 | 规模 | 特点 | 用途 |
|---|---|---|---|
| Wikitext-2 | — | 语言建模基准 | 困惑度评估 |
| MMLU | 57 任务 | 多任务语言理解 | 零样本准确率 |
| ARC-Challenge/Easy | — | 常识推理 | 零样本准确率 |
| BoolQ | — | 布尔问答 | 零样本准确率 |
| Winogrande | — | 常识推理 | 零样本准确率 |
| HellaSwag | — | 常识推理 | 零样本准确率 |
| PiQA | — | 物理直觉 | 零样本准确率 |
| DCLM-edu | 6,100 seq | 校准数据 | PTQ 校准 + 微调 |
-
实现细节
-
量化粒度: 24 维向量组(对应 Leech 格维度)
-
比特率: 2 bits/weight(通过 的 shell 联合实现)
-
校准: 6,100 条 DCLM-edu 序列,逐层 Hessian 估计
-
微调: 1M token,学习逐元素乘性校正(开销 < 0.001 bits/weight)
-
测试模型: Llama-2 7B, Llama-3 8B, Ministral-3 8B, Qwen-3 4B, Qwen-3 8B
-
可视化结果
-
Shape-gain 在所有模型上一致优于 spherical shaping,验证了方向-幅值分离量化的理论优势
-
高维格(24D)相比低维格(8D E8)的优势随模型规模增大而更加明显
-
不使用旋转时 LLVQ shape-gain 仍然表现强劲,说明方法的鲁棒性
-
批判性思考
-
优点
-
理论根基深厚: 建立在 Leech 格(24 维最密球填充)的严格数学理论上,率失真性能有信息论保证
-
无码本设计精巧: 利用 Golay 码的代数结构隐式编码,避免存储 个码本条目
-
实验全面且公平: 统一流水线对比消除了实现差异,文献对比也覆盖了主流方法
-
消融实验充分: Hadamard 旋转消融揭示了高维格的独特优势(无需旋转即可超越低维方法+旋转)
-
局限性
-
仅限 2 bits/weight: 未展示 3-bit、4-bit 等其他常用比特率的结果,灵活性待验证
-
推理速度未报告: 反量化器的实际 GPU 吞吐量、延迟未给出定量数据
-
24 维分组限制: 要求隐藏维度能被 24 整除,对某些架构可能需要 padding
-
代码未开源: 缺乏代码和预训练模型,难以独立复现
-
潜在改进方向
-
探索更灵活的比特率分配(不同层使用不同 shell 数量的 混合精度 策略)
-
设计高效的 CUDA kernel 并给出端到端推理加速的 benchmark
-
研究与 LoRA 等参数高效微调方法的结合
-
扩展到激活量化(目前仅量化权重)
-
可复现性评估
-
代码开源
-
预训练模型
-
训练细节完整(校准数据、微调策略描述清楚)
-
数据集可获取
-
关联笔记
-
基于
-
Leech lattice: 24 维最密格,LLVQ 的核心数学结构
-
Golay 码: 扩展 Golay 码 用于定义 Leech 格的坐标约束和索引方案
-
对比
-
Quip#: 基于 8 维 E8 格的主要对比基线,LLVQ 全面超越
-
QTIP: 基于 Trellis 的方法,文献对比中 LLVQ 在 perplexity 上更优
-
GPTQ: 标量量化基线,在 2-bit 下性能大幅落后
-
方法相关
-
PTQ: LLVQ 属于训练后量化框架
-
向量量化: 核心技术,将标量量化扩展到 24 维
-
Shape-Gain 量化: 方向-幅值分离的量化策略
-
Hadamard 变换: 可选的预处理旋转,用于均匀化权重分布
-
Shannon 率失真: 量化性能的理论基准
-
硬件/数据相关
-
GPU 并行化的反量化 kernel,使用整数运算和小型查找表
-
速查卡片
-
Leech Lattice Vector Quantization for Efficient LLM Compression
- 核心: 24 维 Leech 格向量量化,无需显式码本,达到 Shannon 极限的 92.1%
- 方法: Adoul-Barth 扩展搜索 + 层级索引 + Shape-Gain 分解 + 可并行反量化器
- 结果: 2 bits/weight 下全面超越 Quip#/QTIP/PVQ,Llama-2 7B Wiki PPL 5.48
- 代码: 未开源
笔记创建时间: 2026-03-14