本地大模型性能优化:让模型跑得更快

本地大模型性能优化:让模型跑得更快

模型跑太慢?试试这几个优化方法。

1. 模型量化

量化就是用更少精度表示模型参数。

  • FP16:精度损失小,速度提升有限
  • INT8:速度提升2-3倍,效果还行
  • INT4:速度提升4-5倍,效果打折但能用

推荐:Ollama默认就是量化后的模型,直接用即可。

2. GPU加速

有显卡的一定要开GPU加速。

Ollama设置:

# 查看是否用GPU
ollama list

# 重新加载模型用GPU
OLLAMA_HOST=0.0.0.0:11434 ollama serve

实测:

  • 纯CPU:3 token/s
  • GPU加速:25 token/s

更多AI教程请关注 AI频道

本文由 NUC NAS Hub 自动生成

← 返回首页