本地免费跑 Claude Code：Ollama + Qwen 3 Coder 完整指南

大多数编码工具想让你在打一行代码之前先交信用卡。

你可以现在就在笔记本上运行真正的 Claude Code CLI。没有 API key。没有付费计划。首次下载后不需要网络。你已经知道的同一个 Claude Code。同样的文件编辑。同样的 tool call。同样的 CLAUDE.md 支持。但大脑在你的机器上运行。

2026 年 1 月，Ollama 出货原生支持 Anthropic Messages API。这意味着 Claude Code 可以直接与笔记本上运行的任何模型对话。没有代理。没有 hack。官方。

你获得 Claude Opus 80% 到 90% 的质量，零成本。

核心洞察

你不是在为 CLI 付费。你是在为另一端的大脑付费。换掉大脑，你的账单降到零。

数学是惊人的。12 个月 Claude Max 是 2,400 美元。本地栈成本为零。而且你继续使用完全相同的工具。

三件套

Piece 1：Ollama。在笔记本上运行模型的引擎。一个命令安装。需要 0.14 或更高版本——带原生 Claude Code 支持的版本。

Piece 2：Claude Code。Anthropic 的真正官方 CLI。用 npm 安装一次。看起来一样。工作一样。

Piece 3：免费编码模型。2026 年五个强选择：

Qwen 3 Coder 30B：最佳整体。需要 32GB+ RAM
Qwen 3 Coder 14B：甜点。16GB 运行
GLM 4.7 Flash：128K 上下文。出色 tool calling。16GB
DeepSeek Coder V2：为代码训练。强隐私选择。16GB
Gemma 4 12B：轻量快速。8GB 运行

不确定选 Qwen 3 Coder 14B。它在大多数机器上工作。

五步设置

Step 1：安装 Ollama

curl -fsSL https://ollama.com/install.sh | sh
ollama --version  # 需要 0.14+

Step 2：拉取模型

ollama pull qwen3-coder:14b

约 10GB 下载。之后永远不需要网络。

Step 3：安装 Claude Code

npm install -g @anthropic-ai/claude-code
claude --version

Step 4：指向本地模型

export ANTHROPIC_BASE_URL="http://localhost:11434"
export ANTHROPIC_AUTH_TOKEN="ollama"
export ANTHROPIC_API_KEY=""

cd ~/your-project
claude --model qwen3-coder:14b

永久生效，加入 shell config：

echo 'export ANTHROPIC_BASE_URL="http://localhost:11434"' >> ~/.zshrc
echo 'export ANTHROPIC_AUTH_TOKEN="ollama"' >> ~/.zshrc
echo 'export ANTHROPIC_API_KEY=""' >> ~/.zshrc
source ~/.zshrc

Step 5：测试

"Read the README and tell me what this project does"
"Find all TODO comments in this codebase"
"Write a unit test for the main function"

硬件选择指南

8GB RAM（旧笔记本）：Gemma 4 12B at q4。快速但有限。适合小编辑
16GB RAM（大多数笔记本）：Qwen 3 Coder 14B 或 GLM 4.7 Flash。甜点。真正的编码工作
32GB RAM（M2/M3/M4 Pro）：Qwen 3 Coder 30B。最佳本地质量。处理长 session
64GB+（M3/M4 Max、工作站）：最大模型。接近云端质量
NVIDIA GPU 24GB VRAM（3090/4090）：同样模型，快得多。梦想配置

慢时尝试量化模型：ollama pull qwen3-coder:14b-q4_K_M。质量微小折换大幅速度提升。

五个本地碾压云端的工作流

工作流 1：Codebase 问题。加入新 repo，不知道什么做什么。打开 Claude Code 问 plain 问题。本地擅长这个。读。解释。一小时学会新 codebase，不是一周。成本为零。

工作流 2：多文件重构。要求跨多个文件 clean rename 或 extract。Claude Code 编辑全部。自动 git commit。改得不好，一个 git reset 回滚。以前吃小时的苦力活。现在几分钟。免费。

工作流 3：测试编写。指向文件："为每个 public function 写单元测试"。它写。然后跑。修复失败。本地最大的单一胜利。测试编写是重复、无聊、高 volume 的。完美适合无限免费模型。

工作流 4：通宵运行。长任务。大测试套件。无聊的数据任务。写 one-shot prompt。按回车。去睡觉。醒来。工作完成。Claude Max 做不到——rate limit 会切断你。本地没有 rate limit。永远。

工作流 5：敏感代码。客户工作。专利。内部工具。NDA 文件。你永远不该把这些上传到云端模型。本地，代码永远不离开你的机器。隐私默认。

混合策略：本地 80% + 云端 20%

最聪明的开发者不选本地 OR 云端。他们用两者。

本地（免费）80%：读代码、写测试、简单编辑、bug 修复、文档编写、code review。你一天的大部分。

云端（付费）20%：大架构决策、大多文件重构、frontier reasoning。难的东西。

切换是一个命令：

# 本地
claude --model qwen3-coder:14b

# 云端
unset ANTHROPIC_BASE_URL
unset ANTHROPIC_AUTH_TOKEN
claude

两个标签。两个大脑。一个 CLI。

这个混合把重度用户从每月 200 美元砍到约 20 美元。重要任务同样质量。不重要的任务零质量损失。

云端仍然赢的五个场景

长开放运行。14B/32B 本地模型在长 back-and-forth 后可能丢失 thread。Opus 保持得更好
非常长上下文。超过 80K tokens 本地退化。Opus 在 200K 更 sharp
最难推理。数学证明。棘手 bug。多跳逻辑。Opus 仍然赢
视觉。本地视觉接近但仍 trailing Claude 在截图和图表上

聪明的 play：本地默认。卡住时升级到云端。

成本对比

方案	月费	年费
Claude Max	$100-200	$1,200-2,400
Claude Code API 重度用户	$60-200	$720-2,400
Cursor Pro	$40	$480
本地栈	$0	$0

二手 Mac mini 24GB 不到 1,000 美元。对比 Max alone 五个月回本。之后每分钱都是你的。

即使保留云端 Claude 做难的 20%，混合把重度用户从 200/月砍到约 20/月。90% 削减。

开源模型进步速度

2023：最佳本地模型是 GPT-4 旁边的笑话
2024： decent
2025：Qwen 2.5 Coder 达到 Claude 的 5% 以内
2026：Qwen 3 Coder 和 DeepSeek V3 在真实工作上达到 Opus 的 80-90%
2027：本地将匹配 frontier 在大多数日常任务上
2028：差距将很小

你有大约 18 个月。那是本地运行仍然是 slight edge 而不是默认的窗口。之后每个人都会做。早期的 clout 将消失。

打开终端。安装 Ollama。拉取模型。设三个变量。运行 Claude Code。

十分钟后，你将有其他人每月付 200 美元才能拥有的相同工具，零成本运行。永远。