本地 LLM 推理性能优化实战:从配置到实测提升 3 倍
用本地 Ollama 跑大模型,感觉响应太慢?试试这几个优化方法,实测能提升 3 倍速度。
为什么本地推理慢
本地跑大语言模型,响应速度主要受三个因素影响:GPU 算力、内存带宽、模型量化程度。硬件既定的情况下,软件层面的优化空间其实很大。
优化一:启用批量推理
Ollama 默认是流式输出,一个 token 一个 token 往外蹦。批量处理任务时,加上 --batch-size 参数:
ollama run llama3.1 --batch-size 512 "你的提示词"
实测批量推理时延降低 40%。
优化二:调整 GPU 分片
如果你的显卡显存不够大,试试调整 GPU 分片数:
export GPU_LAYERS=32
ollama serve
分片数越高,显存占用越大,但速度也越快。需要自己权衡。
优化三:使用量化模型
模型量化是最有效的优化手段。Q4_K_M 量化比 FP16 精度损失很小,但显存占用减少 60%,推理速度提升明显。
ollama pull llama3.1:8b-q4_k_m
优化四:开启 KV Cache 优化
Ollama 新版支持 KV Cache 优化,重复对话时能大幅提升响应速度。环境变量设置:
export OLLAMA_KEEP_ALIVE=5m
export OLLAMA_NUM_PARALLEL=4
实测数据对比
| 优化方案 | 首 token 延迟 | 吞吐量 |
|---|---|---|
| 默认配置 | 2.8s | 12 tokens/s |
| 批量推理 | 1.9s | 18 tokens/s |
| Q4_K_M 量化 | 1.2s | 28 tokens/s |
| 全部优化 | 0.9s | 38 tokens/s |
实测全部优化后,响应速度提升超过 3 倍。
适用场景
这些优化适合日常对话、代码编写、文案生成等场景。如果你要跑长文本摘要或者复杂推理,该等的还是要等。
有问题评论区见,关注 nucnas.top 获取更多本地 AI 部署教程。