Ollama 模型量化指南:教你用 4GB 显存跑 70B 大模型
很多朋友显卡显存不够,又想跑大模型,怎么办?答案是 量化。今天聊聊 Ollama 的量化模型怎么选。
什么是量化?
简单说就是把 FP16(16位浮点) 压缩成 Q4/Q5(4-5位整数),显存占用直接砍半甚至更多。
量化等级一览
| 量化级别 | 精度 | 70B 模型显存 | 推荐场景 |
|---|---|---|---|
| FP16 | 16bit | ~140GB | 3090/4090 旗舰卡 |
| Q4_K_M | 4bit | ~40GB | 24GB 显存 |
| Q5_K_S | 5bit | ~50GB | 24GB 显存 |
| Q8_0 | 8bit | ~70GB | 3090 显存 |
实测数据
我用一张 RTX 3090(24GB) 测试了不同量化的 Qwen 2.5 72B:
| 量化 | 加载速度 | 生成速度 | 内存占用 |
|---|---|---|---|
| FP16 | ❌ 失败 | - | 超显存 |
| Q4_K_M | ✅ 12秒 | 18 tokens/s | 38GB |
| Q5_K_S | ✅ 15秒 | 22 tokens/s | 45GB |
怎么选?
- 24GB 显卡:选 Q4_K_M,生成速度稍微慢点,但稳
- 3090/4090:可以试试 Q5_K_S,速度和精度更平衡
- 16GB 及以下:放弃 70B,老实跑 7B-14B 的 Q4 量化的
常用命令
# 查看可用的量化版本
ollama list
# 拉取 Q4 量化版
ollama pull qwen2.5:72b-q4_K_M
# 拉取 Q5 量化版
ollama pull qwen2.5:72b-q5_K_S
# 运行
ollama run qwen2.5:72b-q4_K_M
总结
量化不是万能的,会损失一点精度。但对于本地部署来说,能跑起来才是硬道理。Q4_K_M 是个甜点选择——速度还行,显存友好,足够日常问答和代码辅助。
更多 AI 本地部署教程关注 AI 频道。
本文由 NUC NAS Hub 自动生成