HGQ

分类: 量化与低秩

HGQ

定义

量化方法,允许神经网络不同层使用不同的 bit 宽度,通过约束优化在精度损失和硬件资源(LUT、DSP)之间取得最优权衡,主要面向 FPGA 部署。

核心要点

与均匀量化(全网络同一 bit 宽度)对比:异构分配更高效

关键层(如最后几层)保留高精度,其余层激进压缩

通常需要 bit 宽度感知的训练(类 QAT),梯度通过 STE(Straight-Through Estimator)传播

hls4ml 生态系统的核心组件,支持直接从 PyTorch 导出 FPGA 固件

CERN 在 LHC 实时触发系统(纳秒级延迟)中的主力量化方案

数学形式

min{bl}L(θ)s.t. lCost(bl)Cbudget\min_{\{b_l\}} \mathcal{L}(\theta) \quad \text{s.t. } \sum_l \text{Cost}(b_l) \leq C_{\text{budget}} 每层 bit 宽度 blb_l 作为可优化参数,Cost(bl)\text{Cost}(b_l) 对应 FPGA 资源消耗(如 LUT 数量)。

代表工作

PQuantML — 将 HGQ 集成进统一的 pruning+QAT 训练流程

相关概念

QAT — HGQ 是 QAT 的异构扩展

结构化剪枝 — 与 HGQ 组合使用实现极致压缩