GGUF

分类: 高效推理与部署

定义

一种用于存储量化 LLM 的二进制文件格式，由 llama.cpp 项目定义，支持跨平台推理部署

通用性: 单个 GGUF 文件可在 CPU、GPU、Apple Silicon、ARM 边缘设备上运行，无需修改

量化类型: 支持多种预定义量化格式（Q3_K_M, Q4_K_M, Q5_K_M, Q6_K 等）

分组量化: 默认组大小 128，兼容主流量化方法

无需定制 kernel: 通过标准化格式避免了混合精度推理的 kernel 碎片化问题

生态系统: 被 llama.cpp, Ollama, LM Studio 等推理框架广泛支持

RAMP: 通过 HALO 将混合精度策略映射到 GGUF 量化类型，实现零工程量跨平台部署