GGUF
分类: 高效推理与部署
GGUF
定义
一种用于存储量化 LLM 的二进制文件格式,由 llama.cpp 项目定义,支持跨平台推理部署
核心要点
通用性: 单个 GGUF 文件可在 CPU、GPU、Apple Silicon、ARM 边缘设备上运行,无需修改
量化类型: 支持多种预定义量化格式(Q3_K_M, Q4_K_M, Q5_K_M, Q6_K 等)
分组量化: 默认组大小 128,兼容主流量化方法
无需定制 kernel: 通过标准化格式避免了混合精度推理的 kernel 碎片化问题
生态系统: 被 llama.cpp, Ollama, LM Studio 等推理框架广泛支持
代表工作
RAMP: 通过 HALO 将混合精度策略映射到 GGUF 量化类型,实现零工程量跨平台部署