Ollama模型量化指南2026：让老显卡也能跑大模型

什么是模型量化？

模型量化(Model Quantization)是通过降低模型参数的精度来减少显存占用和计算量。

精度	常见名称	显存需求(7B模型)
FP32	32位全精度	~28GB
FP16	16位半精度	~14GB
INT8	8位整型	~7GB
INT4	4位整型	~3.5GB
Q2_K / Q3_K	更激进的量化	~2GB

简单来说，原来需要14GB显存的全精度模型，INT4量化后3.5GB就能跑。

Ollama支持哪些量化级别？

Ollama默认使用Q4_K_M(4bit量化，中等质量)，常见后缀：

后缀	含义	显存(7B)	质量
Q2_K	2bit	~2GB	较差
Q3_K	3bit	~3GB	一般
Q4_0	4bit	~4GB	中等
Q4_K_M	4bit优化	~4GB	较好
Q5_0	5bit	~5GB	较好
Q5_K_M	5bit优化	~5GB	好
Q6_K	6bit	~6GB	很好
FP16	16bit	~14GB	最好

常用模型量化版本

DeepSeek-R1

# INT4量化版(推荐，8GB显存可用)
ollama run deepseek-r1:7b

# INT8版(需要12GB显存)
ollama run deepseek-r1:7b-q8_0

# 14B版本(需16GB显存)
ollama run deepseek-r1:14b

Qwen2.5

# 7B INT4
ollama run qwen2.5:7b

# 14B INT4
ollama run qwen2.5:14b

# 32B INT4(需20GB显存)
ollama run qwen2.5:32b

Llama 3.1

# 8B INT4
ollama run llama3.1:8b

# 70B INT4(需40GB显存)
ollama run llama3.1:70b

显存对照表

显存	可跑模型
4GB	7B Q4_K_M
6GB	7B Q6_K, 8B Q4_K_M
8GB	7B FP16, 14B Q4_K_M
12GB	14B Q6_K, 8B FP16
16GB	14B FP16, 32B Q4_K_M
24GB	32B Q6_K, 70B Q4_K_M
32GB+	70B Q6_K, 70B FP16

自定义量化(进阶)

使用llama.cpp量化

如果Ollama没有你需要的量化版本，可以用llama.cpp手动量化：

# 1. 下载原模型(GGUF格式)
# 2. 量化
./quantize input.gguf output-q4.gguf q4_k_m

# 3. 导入Ollama
ollama create my-model -f Modelfile

Modelfile示例：

FROM ./output-q4.gguf
PARAMETER num_ctx 4096
PARAMETER temperature 0.7

量化模型质量对比

模型	量化	MMLU	实际体验
DeepSeek-R1 7B	FP16	70%	思考能力强
DeepSeek-R1 7B	Q4_K_M	65%	略有下降，可接受
DeepSeek-R1 7B	Q2_K	55%	明显变笨

常见问题

Q1：量化会影响模型能力吗？

会，但有限。Q4_K_M通常只损失3-5%的能力，但推理速度会更快。

Q2：哪些模型量化效果最好？

Llama系列：量化效果最好
Qwen系列：量化效果尚可
DeepSeek-R1：推荐Q4_K_M以上

Q3：没有显卡能跑吗？

可以！纯CPU也能跑INT4量化模型，但速度较慢(约1-3token/s)。

# CPU模式运行
OLLAMA_HOST=0.0.0.0:11434 ollama serve
# 设置中关闭GPU加速

优化建议

增加Context Length：用/set parameter num_ctx 8192扩展上下文
调整Temperature：/set temperature 0.7让回答更稳定
使用System Prompt：提前设置角色和能力

总结

模型量化是"让老硬件焕发新生"的神器。一张6GB显存的GTX 1660，通过INT4量化也能跑DeepSeek-R1 7B。虽然质量略有下降，但免费+本地+隐私的优势足以弥补。

相关阅读：