Ollama 模型量化指南：6 种量化方式实测对比，显存节省 70% 的秘密

Ollama 支持多种量化方式，从 Q2_K 到 F16，不同量化等级对显存和性能影响巨大。这篇帮你搞懂怎么选，让 8GB 显存也能跑 70B 大模型。

量化方式一览

测试模型：Qwen2.5-14B 测试显卡：RTX 4060 Ti（16GB）

显存占用：

推理速度（Token/s）：

输出质量对比（主观评测）：

ollama list

# 拉取 Q4_1 量化
ollama run qwen2.5:14b-q4_1

# 拉取 Q2_K 量化
ollama run qwen2.5:14b-q2_k

Ollama 支持用 llama.cpp 量化，需要先克隆模型再量化：

# 导出模型
ollama export qwen2.5:14b -o model.bin

# 用 llama.cpp 量化
./quantize model.bin model-q2_k.bin q2_k

Q：量化后模型在哪？ A：默认在 ~/.ollama/models/ 目录下

Q：量化会删除原模型吗？ A：不会，量化是独立文件

Q：量化后还能恢复吗？ A：不能，只能重新拉取原始模型

Q：RTX 3060 12GB 能跑多大模型？ A：推荐 Qwen2.5-7B-Q4_1 或 14B-Q2_K

一般用户首选 Q4_1，兼顾性能和显存。8GB 显存用户别纠结，直接 Q2_K。 quantized 模型虽然精度有损失，但日常对话完全够用。追求高质量回答就上 Q5_1，显存不够是硬伤。

记住：大模型量化后的质量下降主要体现在复杂推理上，简单对话 Q2_K 都能搞定。理性选择，别为了「能跑大模型」牺牲实际体验。