本地大模型性能优化：让模型跑得更快

模型跑太慢？试试这几个优化方法。

1. 模型量化

量化就是用更少精度表示模型参数。

推荐：Ollama默认就是量化后的模型，直接用即可。

有显卡的一定要开GPU加速。

Ollama设置：

# 查看是否用GPU
ollama list

# 重新加载模型用GPU
OLLAMA_HOST=0.0.0.0:11434 ollama serve

实测：

更多AI教程请关注 AI频道。

本文由 NUC NAS Hub 自动生成