13. GGUF / GGML 格式是什么？和本地 / 端侧部署有什么关系？

整理 GGUF / GGML 的含义及其与本地、端侧部署的关系。

简单回答

GGUF（GPT-Generated Unified Format，前身是 GGML）是 llama.cpp 项目定义的模型格式，专门为 CPU 和端侧推理设计。它把模型参数存储为紧凑的二进制格式，支持多种量化精度（Q4_K_M、Q5_K_M、Q8_0 等），可以在纯 CPU 上高效运行大模型推理，也支持 CPU+GPU 混合推理。GGUF 已经成为本地和端侧部署 LLM 的事实标准格式——在没有 GPU 或只有消费级 GPU 的设备上跑大模型，基本都在用 GGUF + llama.cpp。

详细解释

llama.cpp 和 GGML 的背景

llama.cpp 是 Georgi Gerganov 开源的一个项目，目标是用纯 C/C++ 实现 LLM 推理，不依赖 Python 和 PyTorch，可以在各种平台上运行——包括 Mac、Windows、Linux，甚至手机和嵌入式设备。

GGML（Georgi Gerganov Machine Learning）是这个项目最初使用的张量计算库和模型格式。2023 年底 GGML 格式升级为 GGUF（GPT-Generated Unified Format），改进了元数据管理、向后兼容性和扩展性。现在说 GGUF 基本就是在说 llama.cpp 生态的模型格式。

GGUF 的核心特性

紧凑的二进制格式——模型的参数、量化配置、tokenizer 信息、模型架构描述等全部打包在一个文件里。不需要像 HuggingFace 格式那样有多个文件（safetensors + config.json + tokenizer.json 等），方便分发和管理。

丰富的量化选项——GGUF 支持非常多的量化精度和方案。常见的有 Q4_0（4-bit 均匀量化）、Q4_K_M（4-bit k-quant medium，效果更好的量化方案）、Q5_K_M（5-bit）、Q8_0（8-bit）等。不同的量化级别在模型大小和效果之间做不同的 trade-off。Q4_K_M 是最常用的——在 4-bit 的大小下，效果损失比 Q4_0 明显更小。

CPU 推理优化——llama.cpp 对 CPU 推理做了大量优化，利用 SIMD 指令集（AVX2、NEON 等）加速矩阵运算。在现代 CPU（如 Apple M 系列芯片、AMD Ryzen 系列）上，7B Q4 模型可以跑到每秒几十个 token，完全可用。

CPU+GPU 混合推理——可以把模型的一部分层放在 GPU 上、一部分层放在 CPU 上（layer offloading）。比如一个 70B 模型量化后约 40GB，如果 GPU 只有 24GB 显存，可以把部分层放 GPU 加速、其余层在 CPU 上算。

和本地/端侧部署的关系

"本地部署"通常指在个人电脑上运行 LLM——可能只有 CPU，或者有一块消费级 GPU（RTX 3060 12GB、RTX 4090 24GB）。GGUF + llama.cpp 是目前最成熟的方案。

Ollama 是一个基于 llama.cpp 的本地模型管理工具，提供了更友好的使用体验——一行命令就能下载和运行 GGUF 模型。LM Studio 提供了 GUI 界面。

"端侧部署"指在手机、平板、IoT 设备等资源受限的设备上运行。llama.cpp 支持 ARM 架构和 Android/iOS，可以在手机上跑量化后的小模型（1B~3B 量级）。

GGUF vs PyTorch/SafeTensors

PyTorch 的模型格式（.pt、.bin）和 SafeTensors 格式主要面向 GPU 推理和训练生态。它们依赖 PyTorch 运行时，需要 CUDA 环境，文件较大（通常是 FP16/BF16 精度）。

GGUF 专门面向端侧和本地推理。自包含（不依赖 Python/PyTorch）、支持极端量化（2-bit 到 8-bit）、针对 CPU 优化。

两者的选择很清晰：GPU 服务端部署用 PyTorch/SafeTensors 格式配合 vLLM/TGI。本地或端侧部署用 GGUF 格式配合 llama.cpp/Ollama。

量化精度选择建议

GGUF 量化格式的选择需要在模型大小（内存占用）和效果之间权衡。一般来说 Q4_K_M 是性价比最高的选择——7B 模型量化后约 4GB，效果损失很小。如果内存允许，Q5_K_M 或 Q6_K 效果更好。Q8_0 效果几乎无损但体积是 Q4 的两倍。Q2 和 Q3 量化效果损失较大，只在极端资源受限时考虑。

面试时可以这样答

GGUF 是 llama.cpp 生态的模型格式，专门为 CPU 和端侧推理设计。它的特点是自包含（一个文件包含所有信息）、支持丰富的量化精度（Q4 到 Q8 多种选择）、针对 CPU 做了 SIMD 优化，还支持 CPU+GPU 混合推理。
和本地部署的关系很直接——在没有专业 GPU 的个人电脑上跑大模型，基本都是 GGUF + llama.cpp 这条路线。7B 模型 Q4 量化后约 4GB，现代笔记本电脑的 CPU 就能跑到每秒几十个 token。Ollama 和 LM Studio 进一步简化了使用门槛。
和服务端推理框架（vLLM、TGI）的定位完全不同。服务端追求高吞吐、低延迟，用 GPU 加 PyTorch 生态。本地和端侧追求在有限资源上"能跑起来"，用 GGUF 加 llama.cpp。两套生态各有各的场景。

常见追问

Q4_K_M 和 Q4_0 有什么区别？为什么推荐前者？
Apple Silicon（M 系列芯片）上跑 GGUF 模型性能怎么样？
GGUF 格式能不能用于 GPU 服务端推理？有什么限制？

12. vLLM vs TGI vs TensorRT-LLM vs SGLang 该怎么选？

14. Prompt Caching 是什么？它在什么场景下能显著降低成本？