HGQ
分类: 量化与低秩
HGQ
定义
量化方法,允许神经网络不同层使用不同的 bit 宽度,通过约束优化在精度损失和硬件资源(LUT、DSP)之间取得最优权衡,主要面向 FPGA 部署。
核心要点
与均匀量化(全网络同一 bit 宽度)对比:异构分配更高效
关键层(如最后几层)保留高精度,其余层激进压缩
通常需要 bit 宽度感知的训练(类 QAT),梯度通过 STE(Straight-Through Estimator)传播
hls4ml 生态系统的核心组件,支持直接从 PyTorch 导出 FPGA 固件
CERN 在 LHC 实时触发系统(纳秒级延迟)中的主力量化方案
数学形式
每层 bit 宽度 作为可优化参数, 对应 FPGA 资源消耗(如 LUT 数量)。
代表工作
PQuantML — 将 HGQ 集成进统一的 pruning+QAT 训练流程
相关概念
QAT — HGQ 是 QAT 的异构扩展
结构化剪枝 — 与 HGQ 组合使用实现极致压缩