本地大模型性能优化:让模型跑得更快
模型跑太慢?试试这几个优化方法。
1. 模型量化
量化就是用更少精度表示模型参数。
- FP16:精度损失小,速度提升有限
- INT8:速度提升2-3倍,效果还行
- INT4:速度提升4-5倍,效果打折但能用
推荐:Ollama默认就是量化后的模型,直接用即可。
2. GPU加速
有显卡的一定要开GPU加速。
Ollama设置:
# 查看是否用GPU
ollama list
# 重新加载模型用GPU
OLLAMA_HOST=0.0.0.0:11434 ollama serve
实测:
- 纯CPU:3 token/s
- GPU加速:25 token/s
本文由 NUC NAS Hub 自动生成