本地大模型性能优化:让 N100 也能跑 7B 模型
N100 性能弱,但用对方法,7B 模型也能跑起来。
优化技巧:
量化压缩
- 用 llama.cpp 量化到 Q4_K_M
- 显存占用减少 50%,速度提升 30%
GPU 加速
- N100 不支持 CUDA,用 Vulkan 替代
- 速度提升约 20%
内存优化
- 关闭不必要的后台进程
- 使用 swap 扩展可用内存
模型选择
- 7B 太大?试试 3B 或 1.5B
- 量化后 Q4 版本效果差别不大
实测数据:
| 模型 | 优化前 | 优化后 |
|---|---|---|
| Qwen2.5 7B Q4 | 无法运行 | 5 tok/s |
| DeepSeek R1 1.5B | 8 tok/s | 12 tok/s |
终极方案: 跑不动大模型,就用小模型 + RAG(检索增强),效果比纯模型好很多。