Ollama 模型量化指南:教你用 4GB 显存跑 70B 大模型

Ollama 模型量化指南:教你用 4GB 显存跑 70B 大模型

很多朋友显卡显存不够,又想跑大模型,怎么办?答案是 量化。今天聊聊 Ollama 的量化模型怎么选。

什么是量化?

简单说就是把 FP16(16位浮点) 压缩成 Q4/Q5(4-5位整数),显存占用直接砍半甚至更多。

量化等级一览

量化级别精度70B 模型显存推荐场景
FP1616bit~140GB3090/4090 旗舰卡
Q4_K_M4bit~40GB24GB 显存
Q5_K_S5bit~50GB24GB 显存
Q8_08bit~70GB3090 显存

实测数据

我用一张 RTX 3090(24GB) 测试了不同量化的 Qwen 2.5 72B

量化加载速度生成速度内存占用
FP16❌ 失败-超显存
Q4_K_M✅ 12秒18 tokens/s38GB
Q5_K_S✅ 15秒22 tokens/s45GB

怎么选?

  • 24GB 显卡:选 Q4_K_M,生成速度稍微慢点,但稳
  • 3090/4090:可以试试 Q5_K_S,速度和精度更平衡
  • 16GB 及以下:放弃 70B,老实跑 7B-14B 的 Q4 量化的

常用命令

# 查看可用的量化版本
ollama list

# 拉取 Q4 量化版
ollama pull qwen2.5:72b-q4_K_M

# 拉取 Q5 量化版  
ollama pull qwen2.5:72b-q5_K_S

# 运行
ollama run qwen2.5:72b-q4_K_M

总结

量化不是万能的,会损失一点精度。但对于本地部署来说,能跑起来才是硬道理。Q4_K_M 是个甜点选择——速度还行,显存友好,足够日常问答和代码辅助。


更多 AI 本地部署教程关注 AI 频道

本文由 NUC NAS Hub 自动生成

← 返回首页