T-MAC

分类: 高效推理与部署

T-MAC

定义

一种针对低比特 LLM 的 bit-wise LUT-based mpGEMM 方法,在比特级分组预计算查找表,实现 2-bit 精度的三值 LLM 推理

数学形式

R=i=1bj=1K/gLookup(bLUTj,Wij)R = \sum_{i=1}^{b} \sum_{j=1}^{K/g} \text{Lookup}(\text{bLUT}_j, W_{ij})

其中 bb 为权重比特宽度,gg 为 group size,bLUT 大小为 2g2^g

核心要点

粒度: Bit-wise,操作在比特级,天然不支持非整数 bpw

对三值的局限: 三值({-1, 0, 1})对应 2-bit 表示,bpw 固定为 2,无法利用三值稀疏性降低到 1.67 bpw

空间利用率: 存在空间浪费(bit-wise LUT 不如 element-wise LUT 细粒度)

在高带宽平台(Apple M2)性能不错,但在低带宽平台(Intel CPU)5+ 线程后性能下降

代表工作

Bitnet.cpp: 提出 TL(Element-wise LUT)超越 T-MAC,在 Intel i7-13700H 上最高 2.32x 加速

相关概念

mpGEMM: T-MAC 所属技术范畴

Element-wise LUT: 更细粒度的替代方案

BitNet b1.58: T-MAC 的主要推理目标