本地大模型性能优化:让 N100 也能跑 7B 模型

本地大模型性能优化:让 N100 也能跑 7B 模型

N100 性能弱,但用对方法,7B 模型也能跑起来。

优化技巧:

  1. 量化压缩

    • llama.cpp 量化到 Q4_K_M
    • 显存占用减少 50%,速度提升 30%
  2. GPU 加速

    • N100 不支持 CUDA,用 Vulkan 替代
    • 速度提升约 20%
  3. 内存优化

    • 关闭不必要的后台进程
    • 使用 swap 扩展可用内存
  4. 模型选择

    • 7B 太大?试试 3B 或 1.5B
    • 量化后 Q4 版本效果差别不大

实测数据:

模型优化前优化后
Qwen2.5 7B Q4无法运行5 tok/s
DeepSeek R1 1.5B8 tok/s12 tok/s

终极方案: 跑不动大模型,就用小模型 + RAG(检索增强),效果比纯模型好很多。

← 返回首页