HGQ

分类: 量化与低秩

HGQ

定义

量化方法，允许神经网络不同层使用不同的 bit 宽度，通过约束优化在精度损失和硬件资源（LUT、DSP）之间取得最优权衡，主要面向 FPGA 部署。

核心要点

与均匀量化（全网络同一 bit 宽度）对比：异构分配更高效

关键层（如最后几层）保留高精度，其余层激进压缩

通常需要 bit 宽度感知的训练（类 QAT），梯度通过 STE（Straight-Through Estimator）传播

hls4ml 生态系统的核心组件，支持直接从 PyTorch 导出 FPGA 固件

CERN 在 LHC 实时触发系统（纳秒级延迟）中的主力量化方案

数学形式

$\min_{\{b_l\}} \mathcal{L}(\theta) \quad \text{s.t. } \sum_l \text{Cost}(b_l) \leq C_{\text{budget}}$ 每层 bit 宽度 $b_l$ 作为可优化参数， $\text{Cost}(b_l)$ 对应 FPGA 资源消耗（如 LUT 数量）。

代表工作

PQuantML — 将 HGQ 集成进统一的 pruning+QAT 训练流程

HGQ

HGQ

定义

核心要点

数学形式

代表工作

相关概念