Ollama 本地部署完全指南:让大模型跑在你的电脑上
AI InfraOllama本地部署隐私
想要在本地跑大模型?Ollama 了解一下。
为什么选择 Ollama?
| 特性 | 说明 |
|---|---|
| ⚡ 一键安装 | macOS/Linux/Windows 全支持 |
| 📦 模型管理 | 简单易用的 CLI |
| 🔒 隐私安全 | 完全离线,数据不出本地 |
| 🔄 API 兼容 | OpenAI 兼容接口 |
安装
macOS
brew install ollama
Linux
curl -fsSL https://ollama.com/install.sh | sh
Windows
直接下载安装包:https://ollama.com/download/windows
快速开始
1. 拉取模型
# 拉取 LLaMA 2
ollama pull llama2
# 拉取 Qwen
ollama pull qwen
# 拉取 ChatGLM
ollama pull chatglm
# 查看可用模型
ollama list
2. 运行模型
# 交互式对话
ollama run llama2
# 指定参数
ollama run llama2 "解释量子计算" --temp 0.7 --num_ctx 4096
3. Python API
from llama import Llama
# 同步调用
generator = Llama.build(
model="llama2",
tokenizer_path="./tokenizer.model"
)
result = generator.chat_completion(
messages=[{"role": "user", "content": "你好"}],
max_tokens=256,
)
print(result['choices'][0]['message']['content'])
模型库
Ollama 支持 100+ 模型:
常用模型
| 模型 | 命令 | 显存要求 |
|---|---|---|
| LLaMA 2 7B | ollama pull llama2:7b | 8GB |
| LLaMA 2 13B | ollama pull llama2:13b | 16GB |
| Mistral 7B | ollama pull mistral | 8GB |
| Qwen 1.8B | ollama pull qwen:1.8b | 2GB |
| Qwen 7B | ollama pull qwen:7b | 8GB |
| ChatGLM3 6B | ollama pull chatglm3:6b | 8GB |
中文模型
# Qwen 系列(推荐)
ollama pull qwen:7b
ollama pull qwen2:7b
# ChatGLM
ollama pull chatglm3
# Yi
ollama pull yi:6b
高级配置
修改模型参数
# 运行时指定参数
ollama run llama2 --temp 0.5 --top_p 0.9 --num_ctx 4096 --num_gpu 1
自定义模型
创建 Modelfile:
FROM llama2:7b
PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER top_k 40
SYSTEM 你是一个专业的AI助手,用中文回答问题。
加载自定义模型:
ollama create my-assistant -f ./Modelfile
ollama run my-assistant
API 服务
启动 API 服务
# 后台运行
ollama serve &
# 或指定端口
OLLAMA_HOST=0.0.0.0:11434 ollama serve
OpenAI 兼容接口
import openai
client = openai.Client(
api_key="ollama", # 任意字符串
base_url="http://localhost:11434/v1"
)
response = client.chat.completions.create(
model="llama2",
messages=[{"role": "user", "content": "讲个笑话"}]
)
print(response.choices[0].message.content)
REST API
# 聊天
curl -X POST http://localhost:11434/api/chat \
-d '{
"model": "llama2",
"messages": [{"role": "user", "content": "你好"}],
"stream": false
}'
# 生成
curl -X POST http://localhost:11434/api/generate \
-d '{
"model": "llama2",
"prompt": "你好",
"stream": false
}'
GPU 加速
查看 GPU 使用
ollama list
# 运行并查看 GPU
OLLAMA_DEBUG=1 ollama run llama2
多 GPU 配置
# 使用指定 GPU
CUDA_VISIBLE_DEVICES=0,1 ollama run llama2
常见问题
1. 显存不足?
# 量化版本
ollama pull llama2:7b-q4_0
# 或使用小模型
ollama pull phi # 2.7B,仅需 4GB 显存
2. 速度太慢?
- 确保使用量化模型(q4_0, q5_1)
- 有 GPU 会快很多
- CPU 模式下,16GB+ 内存是必须的
3. 模型在哪?
默认路径:
- macOS:
~/.ollama/models/ - Linux:
/usr/share/ollama/.ollama/models/
与其他框架对比
| 框架 | 易用性 | 性能 | 适用场景 |
|---|---|---|---|
| Ollama | ★★★★★ | ★★★☆☆ | 本地开发、个人使用 |
| vLLM | ★★★★☆ | ★★★★★ | 服务器部署 |
| llama.cpp | ★★★★☆ | ★★★★☆ | 极致轻量、嵌入设备 |
总结
Ollama 的优势:
- 安装简单:一行命令搞定
- 使用简单:pull、run 就能跑
- 模型丰富:100+ 模型可选
- API 兼容:无缝切换 OpenAI 应用
推荐场景:
- 本地开发测试
- 个人 AI 助手
- 隐私敏感场景
- 学习大模型技术
想要在本地体验大模型?Ollama 是最简单的开始方式!
下期预告:大模型推理服务架构设计