Ollama 本地部署完全指南：让大模型跑在你的电脑上

想要在本地跑大模型？Ollama 了解一下。

为什么选择 Ollama？

特性	说明
⚡ 一键安装	macOS/Linux/Windows 全支持
📦 模型管理	简单易用的 CLI
🔒 隐私安全	完全离线，数据不出本地
🔄 API 兼容	OpenAI 兼容接口

安装

macOS

brew install ollama

Linux

curl -fsSL https://ollama.com/install.sh | sh

Windows

直接下载安装包：https://ollama.com/download/windows

快速开始

1. 拉取模型

# 拉取 LLaMA 2
ollama pull llama2

# 拉取 Qwen
ollama pull qwen

# 拉取 ChatGLM
ollama pull chatglm

# 查看可用模型
ollama list

2. 运行模型

# 交互式对话
ollama run llama2

# 指定参数
ollama run llama2 "解释量子计算" --temp 0.7 --num_ctx 4096

3. Python API

from llama import Llama

# 同步调用
generator = Llama.build(
    model="llama2",
    tokenizer_path="./tokenizer.model"
)

result = generator.chat_completion(
    messages=[{"role": "user", "content": "你好"}],
    max_tokens=256,
)

print(result['choices'][0]['message']['content'])

模型库

Ollama 支持 100+ 模型：

常用模型

模型	命令	显存要求
LLaMA 2 7B	`ollama pull llama2:7b`	8GB
LLaMA 2 13B	`ollama pull llama2:13b`	16GB
Mistral 7B	`ollama pull mistral`	8GB
Qwen 1.8B	`ollama pull qwen:1.8b`	2GB
Qwen 7B	`ollama pull qwen:7b`	8GB
ChatGLM3 6B	`ollama pull chatglm3:6b`	8GB

中文模型

# Qwen 系列（推荐）
ollama pull qwen:7b
ollama pull qwen2:7b

# ChatGLM
ollama pull chatglm3

# Yi
ollama pull yi:6b

高级配置

修改模型参数

# 运行时指定参数
ollama run llama2 --temp 0.5 --top_p 0.9 --num_ctx 4096 --num_gpu 1

自定义模型

创建 Modelfile：

FROM llama2:7b

PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER top_k 40

SYSTEM 你是一个专业的AI助手，用中文回答问题。

加载自定义模型：

ollama create my-assistant -f ./Modelfile
ollama run my-assistant

API 服务

启动 API 服务

# 后台运行
ollama serve &

# 或指定端口
OLLAMA_HOST=0.0.0.0:11434 ollama serve

OpenAI 兼容接口

import openai

client = openai.Client(
    api_key="ollama",  # 任意字符串
    base_url="http://localhost:11434/v1"
)

response = client.chat.completions.create(
    model="llama2",
    messages=[{"role": "user", "content": "讲个笑话"}]
)

print(response.choices[0].message.content)

REST API

# 聊天
curl -X POST http://localhost:11434/api/chat \
  -d '{
    "model": "llama2",
    "messages": [{"role": "user", "content": "你好"}],
    "stream": false
  }'

# 生成
curl -X POST http://localhost:11434/api/generate \
  -d '{
    "model": "llama2",
    "prompt": "你好",
    "stream": false
  }'

GPU 加速

查看 GPU 使用

ollama list

# 运行并查看 GPU
OLLAMA_DEBUG=1 ollama run llama2

多 GPU 配置

# 使用指定 GPU
CUDA_VISIBLE_DEVICES=0,1 ollama run llama2

常见问题

1. 显存不足？

# 量化版本
ollama pull llama2:7b-q4_0

# 或使用小模型
ollama pull phi  # 2.7B，仅需 4GB 显存

2. 速度太慢？

确保使用量化模型（q4_0, q5_1）
有 GPU 会快很多
CPU 模式下，16GB+ 内存是必须的

3. 模型在哪？

默认路径：

macOS: ~/.ollama/models/
Linux: /usr/share/ollama/.ollama/models/

与其他框架对比

框架	易用性	性能	适用场景
Ollama	★★★★★	★★★☆☆	本地开发、个人使用
vLLM	★★★★☆	★★★★★	服务器部署
llama.cpp	★★★★☆	★★★★☆	极致轻量、嵌入设备

总结

Ollama 的优势：

安装简单：一行命令搞定
使用简单：pull、run 就能跑
模型丰富：100+ 模型可选
API 兼容：无缝切换 OpenAI 应用

推荐场景：

本地开发测试
个人 AI 助手
隐私敏感场景
学习大模型技术

想要在本地体验大模型？Ollama 是最简单的开始方式！

下期预告：大模型推理服务架构设计