T-MAC
分类: 高效推理与部署
T-MAC
定义
一种针对低比特 LLM 的 bit-wise LUT-based mpGEMM 方法,在比特级分组预计算查找表,实现 2-bit 精度的三值 LLM 推理
数学形式
其中 为权重比特宽度, 为 group size,bLUT 大小为 。
核心要点
粒度: Bit-wise,操作在比特级,天然不支持非整数 bpw
对三值的局限: 三值({-1, 0, 1})对应 2-bit 表示,bpw 固定为 2,无法利用三值稀疏性降低到 1.67 bpw
空间利用率: 存在空间浪费(bit-wise LUT 不如 element-wise LUT 细粒度)
在高带宽平台(Apple M2)性能不错,但在低带宽平台(Intel CPU)5+ 线程后性能下降
代表工作
Bitnet.cpp: 提出 TL(Element-wise LUT)超越 T-MAC,在 Intel i7-13700H 上最高 2.32x 加速
相关概念
mpGEMM: T-MAC 所属技术范畴
Element-wise LUT: 更细粒度的替代方案
BitNet b1.58: T-MAC 的主要推理目标