Ollama 0.5最新部署教程:2026本地大模型一键运行
🕐 2026-03-20
🛠️ 更新 2026-03-31
⏱️ 2 分钟
AI
Ollama 0.5最新部署教程:2026本地大模型一键运行
为什么选择Ollama?
Ollama是当前最火的本地大模型运行工具:
- 一键安装:curl即可部署
- 模型丰富:Llama、Qwen、DeepSeek、Gemma等
- 硬件友好:支持CPU/GPU运行
- API兼容:OpenAI兼容API
- 免费开源:完全免费使用
环境要求
最低配置(CPU运行)
| 组件 | 要求 |
|---|
| 内存 | 16GB+ |
| 存储 | 50GB+ |
| 系统 | Linux/macOS/Windows |
推荐配置(GPU加速)
| 组件 | 要求 |
|---|
| GPU | NVIDIA 8GB+显存 |
| 内存 | 32GB+ |
| CUDA | 12.0+ |
安装步骤
Linux/macOS
# 一键安装
curl -fsSL https://ollama.com/install.sh | sh
# 验证安装
ollama --version
# 查看可用模型
ollama list
Windows
# PowerShell安装
winget install Ollama.Ollama
# 或者手动下载
# https://github.com/ollama/ollama/releases
Docker部署(推荐)
version: '3.8'
services:
ollama:
image: ollama/ollama:latest
container_name: ollama
ports:
- "11434:11434"
volumes:
- ./ollama:/root/.ollama
environment:
- OLLAMA_HOST=0.0.0.0
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: all
capabilities: [gpu]
restart: unless-stopped
常用模型
小型模型(CPU可用)
| 模型 | 参数量 | 内存需求 | 用途 |
|---|
| llama3.2:1b | 1B | 2GB | 快速问答 |
| qwen2.5:1.5b | 1.5B | 2GB | 中文问答 |
| phi3:3.8b | 3.8B | 4GB | 指令跟随 |
中型模型(GPU推荐)
| 模型 | 参数量 | 显存需求 | 用途 |
|---|
| llama3.2:3b | 3B | 6GB | 日常对话 |
| qwen2.5:7b | 7B | 8GB | 专业问答 |
| deepseek-r1:7b | 7B | 8GB | 推理能力 |
大型模型(高端GPU)
| 模型 | 参数量 | 显存需求 | 用途 |
|---|
| llama3.1:8b | 8B | 16GB | 高级对话 |
| qwen2.5:14b | 14B | 16GB | 复杂推理 |
| deepseek-r1:14b | 14B | 16GB | 数学推理 |
基础使用
运行模型
# 运行默认模型
ollama run llama3.2
# 指定模型
ollama run qwen2.5:7b
# 运行量化版本(更快)
ollama run qwen2.5:7b-q4_K_M
API调用
# 启动API服务
ollama serve
# REST API调用
curl http://localhost:11434/api/generate -d '{
"model": "qwen2.5:7b",
"prompt": "你好,请介绍一下自己",
"stream": false
}'
OpenAI兼容API
import openai
client = openai.OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama"
)
response = client.chat.completions.create(
model="qwen2.5:7b",
messages=[
{"role": "user", "content": "你好"}
]
)
print(response.choices[0].message.content)
进阶配置
绑定IP地址
# 环境变量配置
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_MODELS=/path/to/models
export OLLAMA_NUM_PARALLEL=4
export OLLAMA_MAX_LOADED_MODELS=2
GPU配置
# 查看GPU检测
ollama list
# CUDA检测
nvidia-smi
# 设置GPU可见
CUDA_VISIBLE_DEVICES=0 ollama run qwen2.5:7b
模型管理
# 列出模型
ollama list
# 删除模型
ollama rm qwen2.5:7b
# 复制模型
ollama cp qwen2.5:7b qwen2.5:7b-custom
# 拉取模型
ollama pull llama3.2
Web UI部署
使用Open WebUI
version: '3.8'
services:
open-webui:
image: openwebui/open-webui:main
container_name: open-webui
ports:
- "3001:8080"
environment:
- OLLAMA_BASE_URL=http://ollama:11434
depends_on:
- ollama
restart: unless-stopped
ollama:
image: ollama/ollama:latest
container_name: ollama
volumes:
- ./ollama:/root/.ollama
restart: unless-stopped
性能优化
CPU优化
# 启用更多线程
export OLLAMA_NUM_PARALLEL=8
export OLLAMA_THREADS=8
GPU优化
# 批量大小
export OLLAMA_BATCH_SIZE=512
# KV缓存
export OLLAMA_KEEP_ALIVE=5m
量化模型选择
| 量化类型 | 压缩率 | 质量 | 推荐 |
|---|
| Q2_K | 75% | 较差 | 测试用 |
| Q4_0 | 58% | 中等 | 入门 |
| Q4_K_M | 55% | 较好 | 平衡 |
| Q5_1 | 45% | 较好 | 推荐 |
| Q8_0 | 30% | 接近无损 | 追求质量 |
常见问题
Q1: 显存不足?
Q2: 加载慢?
Q3: API无法访问?
总结
Ollama让本地大模型运行变得超级简单:
- 安装:一行命令
- 使用:一条命令
- API:开箱即用
- Web UI:Docker一键部署
2026年,用Ollama在迷你主机上跑大模型,每个人都能拥有自己的AI助手!