Ollama 本地部署完全指南:让大模型跑在你的电脑上

AI InfraOllama本地部署隐私

想要在本地跑大模型?Ollama 了解一下。

为什么选择 Ollama?

特性说明
一键安装macOS/Linux/Windows 全支持
📦 模型管理简单易用的 CLI
🔒 隐私安全完全离线,数据不出本地
🔄 API 兼容OpenAI 兼容接口

安装

macOS

brew install ollama

Linux

curl -fsSL https://ollama.com/install.sh | sh

Windows

直接下载安装包:https://ollama.com/download/windows


快速开始

1. 拉取模型

# 拉取 LLaMA 2
ollama pull llama2

# 拉取 Qwen
ollama pull qwen

# 拉取 ChatGLM
ollama pull chatglm

# 查看可用模型
ollama list

2. 运行模型

# 交互式对话
ollama run llama2

# 指定参数
ollama run llama2 "解释量子计算" --temp 0.7 --num_ctx 4096

3. Python API

from llama import Llama

# 同步调用
generator = Llama.build(
    model="llama2",
    tokenizer_path="./tokenizer.model"
)

result = generator.chat_completion(
    messages=[{"role": "user", "content": "你好"}],
    max_tokens=256,
)

print(result['choices'][0]['message']['content'])

模型库

Ollama 支持 100+ 模型:

常用模型

模型命令显存要求
LLaMA 2 7Bollama pull llama2:7b8GB
LLaMA 2 13Bollama pull llama2:13b16GB
Mistral 7Bollama pull mistral8GB
Qwen 1.8Bollama pull qwen:1.8b2GB
Qwen 7Bollama pull qwen:7b8GB
ChatGLM3 6Bollama pull chatglm3:6b8GB

中文模型

# Qwen 系列(推荐)
ollama pull qwen:7b
ollama pull qwen2:7b

# ChatGLM
ollama pull chatglm3

# Yi
ollama pull yi:6b

高级配置

修改模型参数

# 运行时指定参数
ollama run llama2 --temp 0.5 --top_p 0.9 --num_ctx 4096 --num_gpu 1

自定义模型

创建 Modelfile

FROM llama2:7b

PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER top_k 40

SYSTEM 你是一个专业的AI助手,用中文回答问题。

加载自定义模型:

ollama create my-assistant -f ./Modelfile
ollama run my-assistant

API 服务

启动 API 服务

# 后台运行
ollama serve &

# 或指定端口
OLLAMA_HOST=0.0.0.0:11434 ollama serve

OpenAI 兼容接口

import openai

client = openai.Client(
    api_key="ollama",  # 任意字符串
    base_url="http://localhost:11434/v1"
)

response = client.chat.completions.create(
    model="llama2",
    messages=[{"role": "user", "content": "讲个笑话"}]
)

print(response.choices[0].message.content)

REST API

# 聊天
curl -X POST http://localhost:11434/api/chat \
  -d '{
    "model": "llama2",
    "messages": [{"role": "user", "content": "你好"}],
    "stream": false
  }'

# 生成
curl -X POST http://localhost:11434/api/generate \
  -d '{
    "model": "llama2",
    "prompt": "你好",
    "stream": false
  }'

GPU 加速

查看 GPU 使用

ollama list

# 运行并查看 GPU
OLLAMA_DEBUG=1 ollama run llama2

多 GPU 配置

# 使用指定 GPU
CUDA_VISIBLE_DEVICES=0,1 ollama run llama2

常见问题

1. 显存不足?

# 量化版本
ollama pull llama2:7b-q4_0

# 或使用小模型
ollama pull phi  # 2.7B,仅需 4GB 显存

2. 速度太慢?

  • 确保使用量化模型(q4_0, q5_1)
  • 有 GPU 会快很多
  • CPU 模式下,16GB+ 内存是必须的

3. 模型在哪?

默认路径:

  • macOS: ~/.ollama/models/
  • Linux: /usr/share/ollama/.ollama/models/

与其他框架对比

框架易用性性能适用场景
Ollama★★★★★★★★☆☆本地开发、个人使用
vLLM★★★★☆★★★★★服务器部署
llama.cpp★★★★☆★★★★☆极致轻量、嵌入设备

总结

Ollama 的优势:

  1. 安装简单:一行命令搞定
  2. 使用简单:pull、run 就能跑
  3. 模型丰富:100+ 模型可选
  4. API 兼容:无缝切换 OpenAI 应用

推荐场景:

  • 本地开发测试
  • 个人 AI 助手
  • 隐私敏感场景
  • 学习大模型技术

想要在本地体验大模型?Ollama 是最简单的开始方式!


下期预告:大模型推理服务架构设计