Ollama模型量化指南:教你把大模型塞进家用电脑,实测省显存50%
很多朋友想用本地大模型,但被显存劝退了。今天教你怎么用量化技术,把70B的模型压缩到家用显卡能跑的程度。
什么是模型量化
简单说就是用更少的bit表示模型参数。原始模型通常是FP32(32位浮点),量化后可以是FP16、INT8、INT4甚至更低。位数越低,体积越小,显存占用越少,但精度也会有所损失。
Ollama量化实战
查看当前模型信息
ollama list
ollama show 模型名
创建量化模型
Ollama支持多种量化级别,推荐用Q4_K_M,性价比最高。
ollama run 模型名 --verbose
# 或者用Modelfile自定义量化参数
常用量化级别对比
| 量化级别 | 显存需求 | 质量损失 | 推荐场景 |
|---|---|---|---|
| FP16 | 最高 | 无 | 顶级显卡 |
| Q8_0 | 减半 | 几乎无 | 24G显存 |
| Q4_K_M | 1/4 | 5%左右 | 消费级显卡 |
| Q2_K | 1/8 | 明显 | 体验为主 |
实测数据
我用RTX 4060 Ti 16G测试Llama3 8B:
- FP16版本:显存占用16G,回答偶尔卡顿
- Q4_K_M版本:显存占用6G,流畅运行
- 回答质量对比:日常对话几乎无差异
避坑提醒
- 不是所有模型都适合高量化,某些模型量化后容易"变傻"
- 量化只能减少显存占用,不能提升推理速度
- 建议先用小模型测试,找到最适合自己硬件的配置
下期讲如何在Ollama上跑长上下文模型,以及如何优化推理速度。