为什么选择本地运行大模型

Ollama是什么

Ollama是一个开源的大模型运行框架，支持在本地运行 llama、mistral、qwen 等主流模型。

# macOS
brew install ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows（WSL2推荐）
curl -fsSL https://ollama.com/install.sh | sh

ollama --version

# 基础模型（约4GB）
ollama pull llama3.2:1b

# 中等模型（约8GB）
ollama pull qwen2.5:7b

# 中文优化模型
ollama pull qwen2.5:7b-instruct

ollama run llama3.2:1b

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2:1b",
  "prompt": "你好，介绍一下你自己"
}'

推荐使用Q4_K_M量化，平衡性能与显存占用。

使用镜像源或P2P下载工具。

选择更小的量化版本（如Q2_K）或更小的基础模型。

参考文档：https://github.com/ollama/ollama