Ollama 本地部署教程：迷你主机/NAS 跑大模型完全指南

想在本地跑大模型？Ollama 是最简单的选择。一行命令安装，支持 Llama 3、DeepSeek R1、Qwen 等主流模型，完全离线运行。

这篇文章详细讲解如何在迷你主机、NAS 上部署 Ollama，打造你的私人 AI 服务器。

一、为什么选择 Ollama？

优势	说明
🚀 极简安装	一行命令搞定，无需配置环境
📦 模型丰富	支持 100+ 开源大模型
💻 跨平台	Windows/Mac/Linux/NAS 全支持
🔒 完全离线	数据不出本地，隐私安全
🆓 完全免费	无 API 费用，无使用限制
⚡ 性能优化	自动量化，显存占用更低

二、硬件要求与模型选择

2.1 内存/显存需求

模型参数量	最低内存	推荐内存	适合设备
1.5B-3B	4GB	8GB	N100 迷你主机
7B-8B	8GB	16GB	8845HS/Ultra5 主机
14B-16B	16GB	32GB	32GB 内存主机
32B-34B	24GB	48GB	带 GPU 主机
70B+	48GB	64GB+	高端工作站

2.2 推荐模型

日常对话：

Llama 3.2 3B（轻量快速）
Qwen2.5 7B（中文优秀）
DeepSeek R1 7B（推理强）

专业任务：

Qwen2.5 14B（代码/写作）
Llama 3.1 70B（最强开源）
Mixtral 8x7B（MoE 架构）

中文优先：

Qwen2.5 系列（阿里出品）
DeepSeek R1（国产之光）
Yi 系列（零一万物）

三、安装教程

3.1 Windows 安装

访问官网：https://ollama.com/download
下载 Windows 安装包
双击安装（约 1 分钟）
打开命令行测试：

ollama --version

3.2 Linux/Mac 安装

# 一键安装脚本
curl -fsSL https://ollama.com/install.sh | sh

# 验证安装
ollama --version

# 启动服务（后台运行）
ollama serve

3.3 群晖 NAS 安装（Docker）

# 拉取镜像
docker pull ollama/ollama

# 创建数据目录
mkdir -p /volume1/docker/ollama

# 运行容器
docker run -d \
  --name ollama \
  --restart always \
  -v /volume1/docker/ollama:/root/.ollama \
  -p 11434:11434 \
  ollama/ollama

3.4 飞牛 OS 安装

飞牛 OS 应用中心直接搜索"Ollama"，一键安装即可。

四、下载与使用模型

4.1 下载模型

# 查看可用模型
ollama list

# 下载模型（以 Qwen2.5 7B 为例）
ollama pull qwen2.5:7b

# 下载量化版本（更省内存）
ollama pull qwen2.5:7b-q4_k_m

# 下载中文优化版
ollama pull qwen2.5:7b-instruct

4.2 开始对话

# 命令行对话
ollama run qwen2.5:7b

# 输入问题，直接得到回答
> 如何用 Python 读取 CSV 文件？

4.3 常用命令

# 查看已下载模型
ollama list

# 查看模型信息
ollama show qwen2.5:7b

# 删除模型
ollama rm qwen2.5:7b

# 更新模型
ollama pull qwen2.5:7b

# 复制模型
ollama cp qwen2.5:7b my-qwen

五、Web UI 配置（推荐）

命令行够用，但 Web 界面更友好。

5.1 Open WebUI（推荐）

# Docker 安装
docker run -d \
  --name open-webui \
  --network host \
  -v open-webui:/app/backend/data \
  -e OLLAMA_BASE_URL=http://127.0.0.1:11434 \
  --restart always \
  ghcr.io/open-webui/open-webui:main

访问：http://你的 IP:8080

5.2 其他 Web UI

项目	特点	安装难度
Open WebUI	功能最全，类似 ChatGPT	⭐⭐
Continue	VSCode 插件，编程专用	⭐
AnythingLLM	支持本地知识库	⭐⭐
Lobe Chat	界面美观，插件丰富	⭐⭐

六、性能优化

6.1 GPU 加速（NVIDIA）

# 确认 GPU 识别
nvidia-smi

# Ollama 会自动调用 GPU
# 可通过环境变量调整
export OLLAMA_GPU_LAYERS=33
ollama run qwen2.5:7b

6.2 量化选择

量化级别	内存节省	质量损失	推荐场景
Q4_K_M	40%	很小	日常使用
Q5_K_S	30%	几乎无	专业任务
Q6_K	20%	无	高精度需求
Q8_0	10%	无	极限测试

# 下载量化版本
ollama pull llama3.2:3b-q4_k_m

6.3 上下文长度

# 修改模型配置
ollama cp qwen2.5:7b qwen2.5-8k
ollama mod qwen2.5-8k context_window 8192

七、应用场景

7.1 私人助理

📝 文案写作、邮件回复
📊 数据分析、总结摘要
🌐 翻译、润色

7.2 开发辅助

💻 代码生成、Debug
📖 技术文档查询
🔧 脚本编写

7.3 本地知识库

配合 RAG 技术，构建私人知识库：

📁 企业文档
📕 个人笔记
🎓 学习资料

7.4 NAS+AI 组合

在 NAS 上部署 Ollama，全家设备都能访问：

手机 App 远程调用
智能家居语音助手
自动化任务处理

八、常见问题

Q1: 下载速度慢？

A：使用国内镜像或夜间下载，7B 模型约 4GB。

Q2: 回答速度慢？

A：1. 使用量化版本；2. 增加 GPU；3. 升级内存。

Q3: 如何更新 Ollama？

A：Windows/Mac 重新下载安装包；Linux 重新运行安装脚本。

Q4: 可以在 NAS 上 24 小时运行吗？

A：可以，Docker 方式部署后设置--restart always。

Q5: 如何外网访问？

A：配置 Tailscale 组网或 Frp 内网穿透。

九、总结

Ollama 让本地大模型部署变得前所未有的简单。无论是迷你主机还是 NAS，都能轻松运行私人 AI。

核心优势：

🆓 免费开源，无 API 费用
🔒 数据本地，隐私安全
⚡ 离线可用，无网络依赖
🇨🇳 中文模型丰富，效果好

关键词： Ollama、本地大模型、迷你主机 AI、NAS 部署 AI、私有 AI 服务器、Llama 3、DeepSeek R1、离线 AI