Ollama 0.5最新部署教程：2026本地大模型一键运行

为什么选择Ollama？

Ollama是当前最火的本地大模型运行工具：

一键安装：curl即可部署
模型丰富：Llama、Qwen、DeepSeek、Gemma等
硬件友好：支持CPU/GPU运行
API兼容：OpenAI兼容API
免费开源：完全免费使用

环境要求

最低配置（CPU运行）

组件	要求
内存	16GB+
存储	50GB+
系统	Linux/macOS/Windows

组件	要求
GPU	NVIDIA 8GB+显存
内存	32GB+
CUDA	12.0+

安装步骤

Linux/macOS

# 一键安装
curl -fsSL https://ollama.com/install.sh | sh

# 验证安装
ollama --version

# 查看可用模型
ollama list

Windows

# PowerShell安装
winget install Ollama.Ollama

# 或者手动下载
# https://github.com/ollama/ollama/releases

Docker部署（推荐）

version: '3.8'
services:
  ollama:
    image: ollama/ollama:latest
    container_name: ollama
    ports:
      - "11434:11434"
    volumes:
      - ./ollama:/root/.ollama
    environment:
      - OLLAMA_HOST=0.0.0.0
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    restart: unless-stopped

常用模型

小型模型（CPU可用）

模型	参数量	内存需求	用途
llama3.2:1b	1B	2GB	快速问答
qwen2.5:1.5b	1.5B	2GB	中文问答
phi3:3.8b	3.8B	4GB	指令跟随

中型模型（GPU推荐）

模型	参数量	显存需求	用途
llama3.2:3b	3B	6GB	日常对话
qwen2.5:7b	7B	8GB	专业问答
deepseek-r1:7b	7B	8GB	推理能力

大型模型（高端GPU）

模型	参数量	显存需求	用途
llama3.1:8b	8B	16GB	高级对话
qwen2.5:14b	14B	16GB	复杂推理
deepseek-r1:14b	14B	16GB	数学推理

基础使用

运行模型

# 运行默认模型
ollama run llama3.2

# 指定模型
ollama run qwen2.5:7b

# 运行量化版本（更快）
ollama run qwen2.5:7b-q4_K_M

API调用

# 启动API服务
ollama serve

# REST API调用
curl http://localhost:11434/api/generate -d '{
  "model": "qwen2.5:7b",
  "prompt": "你好，请介绍一下自己",
  "stream": false
}'

OpenAI兼容API

import openai

client = openai.OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"
)

response = client.chat.completions.create(
    model="qwen2.5:7b",
    messages=[
        {"role": "user", "content": "你好"}
    ]
)

print(response.choices[0].message.content)

进阶配置

绑定IP地址

# 环境变量配置
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_MODELS=/path/to/models
export OLLAMA_NUM_PARALLEL=4
export OLLAMA_MAX_LOADED_MODELS=2

GPU配置

# 查看GPU检测
ollama list

# CUDA检测
nvidia-smi

# 设置GPU可见
CUDA_VISIBLE_DEVICES=0 ollama run qwen2.5:7b

模型管理

# 列出模型
ollama list

# 删除模型
ollama rm qwen2.5:7b

# 复制模型
ollama cp qwen2.5:7b qwen2.5:7b-custom

# 拉取模型
ollama pull llama3.2

Web UI部署

使用Open WebUI

version: '3.8'
services:
  open-webui:
    image: openwebui/open-webui:main
    container_name: open-webui
    ports:
      - "3001:8080"
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434
    depends_on:
      - ollama
    restart: unless-stopped

  ollama:
    image: ollama/ollama:latest
    container_name: ollama
    volumes:
      - ./ollama:/root/.ollama
    restart: unless-stopped

性能优化

CPU优化

# 启用更多线程
export OLLAMA_NUM_PARALLEL=8
export OLLAMA_THREADS=8

GPU优化

# 批量大小
export OLLAMA_BATCH_SIZE=512

# KV缓存
export OLLAMA_KEEP_ALIVE=5m

量化模型选择

量化类型	压缩率	质量	推荐
Q2_K	75%	较差	测试用
Q4_0	58%	中等	入门
Q4_K_M	55%	较好	平衡
Q5_1	45%	较好	推荐
Q8_0	30%	接近无损	追求质量

常见问题

Q1: 显存不足？

选择量化模型
使用CPU模式
增加swap

Q2: 加载慢？

使用量化版本
升级CUDA驱动
检查磁盘IO

Q3: API无法访问？

检查防火墙
确认服务启动
检查端口占用

总结

Ollama让本地大模型运行变得超级简单：

安装：一行命令
使用：一条命令
API：开箱即用
Web UI：Docker一键部署

2026年，用Ollama在迷你主机上跑大模型，每个人都能拥有自己的AI助手！

Ollama 0.5最新部署教程：2026本地大模型一键运行

为什么选择Ollama？

环境要求

最低配置（CPU运行）

推荐配置（GPU加速）

安装步骤

Linux/macOS

Windows

Docker部署（推荐）

常用模型

小型模型（CPU可用）

中型模型（GPU推荐）

大型模型（高端GPU）

基础使用

运行模型

API调用

OpenAI兼容API

进阶配置

绑定IP地址

GPU配置

模型管理

Web UI部署

使用Open WebUI

性能优化

CPU优化

GPU优化

量化模型选择

常见问题

Q1: 显存不足？

Q2: 加载慢？

Q3: API无法访问？

总结

相关文章

Ollama模型量化全攻略：Q4到Q2如何选择最适合自己的量化版本

8845HS性能实测：能跑多大本地大模型

本地大模型部署指南：Ollama配置全攻略