Ollama + OpenWebUI 本地部署:30 分钟搭建私人 AI 助手
2026 年,本地 AI 部署已经非常成熟。Ollama + OpenWebUI 组合,能让你在本地拥有和 ChatGPT 几乎一样的体验,而且完全免费、数据不出本地。
本文基于 Windows 11 + NUC 迷你主机实测,30 分钟搞定。
测试环境
| 项目 | 配置 |
|---|---|
| 设备 | 零刻 SER8 Pro(8845HS) |
| 内存 | 32GB DDR5 |
| 系统 | Windows 11 Pro |
| 模型 | DeepSeek R1 14B、Qwen2.5 7B |
一、安装 Ollama
1.1 下载安装
访问官网:https://ollama.com
# 或者用命令行安装(Windows)
winget install Ollama.Ollama
安装完成后,Ollama 会自动在后台运行,默认端口 11434。
1.2 验证安装
# PowerShell 测试
ollama --version
# 输出示例:
# ollama version is 0.6.5
1.3 下载模型
# DeepSeek R1 14B(推荐,16GB 内存可运行)
ollama pull deepseek-r1:14b
# Qwen2.5 7B(中文优化)
ollama pull qwen2.5:7b
# Llama 3.1 8B(英文能力强)
ollama pull llama3.1:8b
# 轻量版(8GB 内存可运行)
ollama pull deepseek-r1:7b
| 模型 | 大小 | 最低内存 | 推荐场景 |
|---|---|---|---|
| deepseek-r1:1.5b | 1.2GB | 4GB | 尝鲜/简单对话 |
| deepseek-r1:7b | 5.8GB | 8GB | 日常对话/文案 |
| deepseek-r1:14b | 10GB | 16GB | 专业写作/代码 |
| qwen2.5:7b | 5.5GB | 8GB | 中文内容创作 |
二、安装 OpenWebUI
OpenWebUI 提供 Web 界面,体验接近 ChatGPT。
2.1 Docker 安装(推荐)
# 创建 Docker 容器
docker run -d `
-p 3000:8080 `
--add-host=host.docker.internal:host-gateway `
-v open-webui:/app/backend/data `
--name open-webui `
--restart always `
ghcr.io/open-webui/open-webui:main
2.2 访问界面
浏览器打开:http://localhost:3000
首次登录需要创建管理员账号:
- 邮箱:随意填写(本地用)
- 密码:建议 12 位以上
2.3 连接 Ollama
1. 点击右上角头像 → 设置
2. 进入 模型 → Ollama
3. Base URL: http://host.docker.internal:11434
4. 点击 测试连接
5. 保存
三、性能实测
3.1 推理速度测试
设备:零刻 SER8 Pro(8845HS,32GB 内存)
| 模型 | 首字延迟 | 生成速度 | 内存占用 |
|---|---|---|---|
| deepseek-r1:7b | 0.8s | 42 tokens/s | 6.2GB |
| deepseek-r1:14b | 1.5s | 28 tokens/s | 10.5GB |
| qwen2.5:7b | 0.7s | 45 tokens/s | 5.8GB |
评价:8845HS 跑 14B 模型完全够用,28 tokens/s 的速度日常使用流畅。
3.2 多轮对话测试
连续对话 20 轮,上下文长度 8K:
| 模型 | 响应时间 | 内存增长 | 稳定性 |
|---|---|---|---|
| deepseek-r1:14b | 2-3s | +1.2GB | 稳定 |
| qwen2.5:7b | 1-2s | +0.8GB | 稳定 |
四、高级配置
4.1 模型切换
OpenWebUI 支持在界面直接切换模型:
1. 点击左侧模型选择器
2. 选择已下载的模型
3. 新对话会使用选定模型
4.2 自定义系统提示
你是一名专业的技术助手,擅长:
1. 编程问题解答(Python/JavaScript/Go)
2. 技术方案设计
3. 代码审查和优化
要求:
- 回答简洁,直接给出解决方案
- 代码必须可运行,包含必要注释
- 不确定的内容要说明
4.3 API 调用
Ollama 提供 OpenAI 兼容 API:
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama"
)
response = client.chat.completions.create(
model="deepseek-r1:14b",
messages=[{"role": "user", "content": "Hello"}]
)
print(response.choices[0].message.content)
五、常见问题
问题 1:模型下载慢
原因:Ollama 服务器在国外
解决:
# 使用国内镜像
$env:OLLAMA_HOST="https://ollama.azhao.top"
ollama pull deepseek-r1:14b
问题 2:内存不足
症状:系统卡顿、模型加载失败
解决:
- 关闭其他占用内存的程序
- 使用更小参数模型(7b 或 1.5b)
- 增加虚拟内存(建议 32GB 以上)
问题 3:OpenWebUI 无法连接 Ollama
检查:
# 确认 Ollama 在运行
ollama list
# 测试 API
curl http://localhost:11434/api/tags
六、扩展建议
| 扩展 | 用途 | 难度 |
|---|---|---|
| Everything 插件 | 本地文件搜索 | ⭐⭐ |
| 知识库 RAG | 私有文档问答 | ⭐⭐⭐ |
| 语音输入 | 语音转文字 | ⭐⭐ |
| 多模型路由 | 自动选择最佳模型 | ⭐⭐⭐⭐ |
更多AI部署教程和硬件测评请关注 NUC NAS Hub。
本文由 NUC NAS Hub 自动生成,基于 nucnas.top 实测数据