Ollama 0.5最新部署教程:2026本地大模型一键运行

Ollama 0.5最新部署教程:2026本地大模型一键运行

为什么选择Ollama?

Ollama是当前最火的本地大模型运行工具:

  • 一键安装:curl即可部署
  • 模型丰富:Llama、Qwen、DeepSeek、Gemma等
  • 硬件友好:支持CPU/GPU运行
  • API兼容:OpenAI兼容API
  • 免费开源:完全免费使用

环境要求

最低配置(CPU运行)

组件要求
内存16GB+
存储50GB+
系统Linux/macOS/Windows

推荐配置(GPU加速)

组件要求
GPUNVIDIA 8GB+显存
内存32GB+
CUDA12.0+

安装步骤

Linux/macOS

# 一键安装
curl -fsSL https://ollama.com/install.sh | sh

# 验证安装
ollama --version

# 查看可用模型
ollama list

Windows

# PowerShell安装
winget install Ollama.Ollama

# 或者手动下载
# https://github.com/ollama/ollama/releases

Docker部署(推荐)

version: '3.8'
services:
  ollama:
    image: ollama/ollama:latest
    container_name: ollama
    ports:
      - "11434:11434"
    volumes:
      - ./ollama:/root/.ollama
    environment:
      - OLLAMA_HOST=0.0.0.0
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    restart: unless-stopped

常用模型

小型模型(CPU可用)

模型参数量内存需求用途
llama3.2:1b1B2GB快速问答
qwen2.5:1.5b1.5B2GB中文问答
phi3:3.8b3.8B4GB指令跟随

中型模型(GPU推荐)

模型参数量显存需求用途
llama3.2:3b3B6GB日常对话
qwen2.5:7b7B8GB专业问答
deepseek-r1:7b7B8GB推理能力

大型模型(高端GPU)

模型参数量显存需求用途
llama3.1:8b8B16GB高级对话
qwen2.5:14b14B16GB复杂推理
deepseek-r1:14b14B16GB数学推理

基础使用

运行模型

# 运行默认模型
ollama run llama3.2

# 指定模型
ollama run qwen2.5:7b

# 运行量化版本(更快)
ollama run qwen2.5:7b-q4_K_M

API调用

# 启动API服务
ollama serve

# REST API调用
curl http://localhost:11434/api/generate -d '{
  "model": "qwen2.5:7b",
  "prompt": "你好,请介绍一下自己",
  "stream": false
}'

OpenAI兼容API

import openai

client = openai.OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"
)

response = client.chat.completions.create(
    model="qwen2.5:7b",
    messages=[
        {"role": "user", "content": "你好"}
    ]
)

print(response.choices[0].message.content)

进阶配置

绑定IP地址

# 环境变量配置
export OLLAMA_HOST=0.0.0.0:11434
export OLLAMA_MODELS=/path/to/models
export OLLAMA_NUM_PARALLEL=4
export OLLAMA_MAX_LOADED_MODELS=2

GPU配置

# 查看GPU检测
ollama list

# CUDA检测
nvidia-smi

# 设置GPU可见
CUDA_VISIBLE_DEVICES=0 ollama run qwen2.5:7b

模型管理

# 列出模型
ollama list

# 删除模型
ollama rm qwen2.5:7b

# 复制模型
ollama cp qwen2.5:7b qwen2.5:7b-custom

# 拉取模型
ollama pull llama3.2

Web UI部署

使用Open WebUI

version: '3.8'
services:
  open-webui:
    image: openwebui/open-webui:main
    container_name: open-webui
    ports:
      - "3001:8080"
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434
    depends_on:
      - ollama
    restart: unless-stopped

  ollama:
    image: ollama/ollama:latest
    container_name: ollama
    volumes:
      - ./ollama:/root/.ollama
    restart: unless-stopped

性能优化

CPU优化

# 启用更多线程
export OLLAMA_NUM_PARALLEL=8
export OLLAMA_THREADS=8

GPU优化

# 批量大小
export OLLAMA_BATCH_SIZE=512

# KV缓存
export OLLAMA_KEEP_ALIVE=5m

量化模型选择

量化类型压缩率质量推荐
Q2_K75%较差测试用
Q4_058%中等入门
Q4_K_M55%较好平衡
Q5_145%较好推荐
Q8_030%接近无损追求质量

常见问题

Q1: 显存不足?

  • 选择量化模型
  • 使用CPU模式
  • 增加swap

Q2: 加载慢?

  • 使用量化版本
  • 升级CUDA驱动
  • 检查磁盘IO

Q3: API无法访问?

  • 检查防火墙
  • 确认服务启动
  • 检查端口占用

总结

Ollama让本地大模型运行变得超级简单:

  • 安装:一行命令
  • 使用:一条命令
  • API:开箱即用
  • Web UI:Docker一键部署

2026年,用Ollama在迷你主机上跑大模型,每个人都能拥有自己的AI助手!

← 返回首页