混合精度

分类: 量化与低秩

混合精度

定义

  • 在模型的不同层或不同操作中使用不同的数值精度(如 FP16、BF16、INT8 混用),在保持模型精度的前提下降低计算和存储开销

核心要点

  • 训练常用 FP16/BF16 + FP32 master weights
  • 推理可用 INT8/INT4 + FP16 混合
  • 不同层对精度敏感度不同,可差异化配置
  • Bitnet.cpp 的 mpGEMM 就是混合精度矩阵乘法

代表工作

  • (待补充)

相关概念