GGUF

分类: 高效推理与部署

GGUF

定义

一种用于存储量化 LLM 的二进制文件格式,由 llama.cpp 项目定义,支持跨平台推理部署

核心要点

通用性: 单个 GGUF 文件可在 CPU、GPU、Apple Silicon、ARM 边缘设备上运行,无需修改

量化类型: 支持多种预定义量化格式(Q3_K_M, Q4_K_M, Q5_K_M, Q6_K 等)

分组量化: 默认组大小 128,兼容主流量化方法

无需定制 kernel: 通过标准化格式避免了混合精度推理的 kernel 碎片化问题

生态系统: 被 llama.cpp, Ollama, LM Studio 等推理框架广泛支持

代表工作

RAMP: 通过 HALO 将混合精度策略映射到 GGUF 量化类型,实现零工程量跨平台部署

相关概念

llama.cpp

混合精度

PTQ