Ollama 模型量化指南：教你用 4GB 显存跑 70B 大模型

很多朋友显卡显存不够，又想跑大模型，怎么办？答案是量化。今天聊聊 Ollama 的量化模型怎么选。

什么是量化？

简单说就是把 FP16（16位浮点） 压缩成 Q4/Q5（4-5位整数），显存占用直接砍半甚至更多。

量化级别	精度	70B 模型显存	推荐场景
FP16	16bit	~140GB	3090/4090 旗舰卡
Q4_K_M	4bit	~40GB	24GB 显存
Q5_K_S	5bit	~50GB	24GB 显存
Q8_0	8bit	~70GB	3090 显存

我用一张 RTX 3090（24GB） 测试了不同量化的 Qwen 2.5 72B：

# 查看可用的量化版本
ollama list

# 拉取 Q4 量化版
ollama pull qwen2.5:72b-q4_K_M

# 拉取 Q5 量化版  
ollama pull qwen2.5:72b-q5_K_S

# 运行
ollama run qwen2.5:72b-q4_K_M

量化不是万能的，会损失一点精度。但对于本地部署来说，能跑起来才是硬道理。Q4_K_M 是个甜点选择——速度还行，显存友好，足够日常问答和代码辅助。

更多 AI 本地部署教程关注 AI 频道。

本文由 NUC NAS Hub 自动生成