本地运行大模型:Ollama完全指南

为什么选择本地运行大模型

  • 隐私安全:数据不出本地
  • 成本可控:一次性投入,无API调用费用
  • 定制灵活:可微调、可离线使用

Ollama是什么

Ollama是一个开源的大模型运行框架,支持在本地运行 llama、mistral、qwen 等主流模型。

安装步骤

1. 下载安装

# macOS
brew install ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows(WSL2推荐)
curl -fsSL https://ollama.com/install.sh | sh

2. 验证安装

ollama --version

3. 拉取模型

# 基础模型(约4GB)
ollama pull llama3.2:1b

# 中等模型(约8GB)
ollama pull qwen2.5:7b

# 中文优化模型
ollama pull qwen2.5:7b-instruct

使用方法

命令行交互

ollama run llama3.2:1b

API调用

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2:1b",
  "prompt": "你好,介绍一下你自己"
}'

性能优化建议

GPU加速

  • NVIDIA显卡:自动启用CUDA加速
  • AMD显卡:ROCm支持(实验性)

内存管理

  • 8GB RAM:运行7B参数模型
  • 16GB RAM:运行14B参数模型
  • 32GB RAM:运行70B参数模型

模型量化

推荐使用Q4_K_M量化,平衡性能与显存占用。

常见问题

模型下载太慢?

使用镜像源或P2P下载工具。

显存不够?

选择更小的量化版本(如Q2_K)或更小的基础模型。


参考文档:https://github.com/ollama/ollama

← 返回首页