混合精度 分类: 量化与低秩混合精度 定义 在模型的不同层或不同操作中使用不同的数值精度(如 FP16、BF16、INT8 混用),在保持模型精度的前提下降低计算和存储开销 核心要点 训练常用 FP16/BF16 + FP32 master weights 推理可用 INT8/INT4 + FP16 混合 不同层对精度敏感度不同,可差异化配置 Bitnet.cpp 的 mpGEMM 就是混合精度矩阵乘法 代表工作 (待补充) 相关概念 PTQ QAT SmoothQuant