本地免费跑 Claude Code:Ollama + Qwen 3 Coder 完整指南
大多数编码工具想让你在打一行代码之前先交信用卡。
你可以现在就在笔记本上运行真正的 Claude Code CLI。没有 API key。没有付费计划。首次下载后不需要网络。你已经知道的同一个 Claude Code。同样的文件编辑。同样的 tool call。同样的 CLAUDE.md 支持。但大脑在你的机器上运行。
2026 年 1 月,Ollama 出货原生支持 Anthropic Messages API。这意味着 Claude Code 可以直接与笔记本上运行的任何模型对话。没有代理。没有 hack。官方。
你获得 Claude Opus 80% 到 90% 的质量,零成本。
核心洞察
你不是在为 CLI 付费。你是在为另一端的大脑付费。换掉大脑,你的账单降到零。
数学是惊人的。12 个月 Claude Max 是 2,400 美元。本地栈成本为零。而且你继续使用完全相同的工具。
三件套
Piece 1:Ollama。在笔记本上运行模型的引擎。一个命令安装。需要 0.14 或更高版本——带原生 Claude Code 支持的版本。
Piece 2:Claude Code。Anthropic 的真正官方 CLI。用 npm 安装一次。看起来一样。工作一样。
Piece 3:免费编码模型。2026 年五个强选择:
- Qwen 3 Coder 30B:最佳整体。需要 32GB+ RAM
- Qwen 3 Coder 14B:甜点。16GB 运行
- GLM 4.7 Flash:128K 上下文。出色 tool calling。16GB
- DeepSeek Coder V2:为代码训练。强隐私选择。16GB
- Gemma 4 12B:轻量快速。8GB 运行
不确定选 Qwen 3 Coder 14B。它在大多数机器上工作。
五步设置
Step 1:安装 Ollama
curl -fsSL https://ollama.com/install.sh | sh
ollama --version # 需要 0.14+
Step 2:拉取模型
ollama pull qwen3-coder:14b
约 10GB 下载。之后永远不需要网络。
Step 3:安装 Claude Code
npm install -g @anthropic-ai/claude-code
claude --version
Step 4:指向本地模型
export ANTHROPIC_BASE_URL="http://localhost:11434"
export ANTHROPIC_AUTH_TOKEN="ollama"
export ANTHROPIC_API_KEY=""
cd ~/your-project
claude --model qwen3-coder:14b
永久生效,加入 shell config:
echo 'export ANTHROPIC_BASE_URL="http://localhost:11434"' >> ~/.zshrc
echo 'export ANTHROPIC_AUTH_TOKEN="ollama"' >> ~/.zshrc
echo 'export ANTHROPIC_API_KEY=""' >> ~/.zshrc
source ~/.zshrc
Step 5:测试
- "Read the README and tell me what this project does"
- "Find all TODO comments in this codebase"
- "Write a unit test for the main function"
硬件选择指南
- 8GB RAM(旧笔记本):Gemma 4 12B at q4。快速但有限。适合小编辑
- 16GB RAM(大多数笔记本):Qwen 3 Coder 14B 或 GLM 4.7 Flash。甜点。真正的编码工作
- 32GB RAM(M2/M3/M4 Pro):Qwen 3 Coder 30B。最佳本地质量。处理长 session
- 64GB+(M3/M4 Max、工作站):最大模型。接近云端质量
- NVIDIA GPU 24GB VRAM(3090/4090):同样模型,快得多。梦想配置
慢时尝试量化模型:ollama pull qwen3-coder:14b-q4_K_M。质量微小折换大幅速度提升。
五个本地碾压云端的工作流
工作流 1:Codebase 问题。加入新 repo,不知道什么做什么。打开 Claude Code 问 plain 问题。本地擅长这个。读。解释。一小时学会新 codebase,不是一周。成本为零。
工作流 2:多文件重构。要求跨多个文件 clean rename 或 extract。Claude Code 编辑全部。自动 git commit。改得不好,一个 git reset 回滚。以前吃小时的苦力活。现在几分钟。免费。
工作流 3:测试编写。指向文件:"为每个 public function 写单元测试"。它写。然后跑。修复失败。本地最大的单一胜利。测试编写是重复、无聊、高 volume 的。完美适合无限免费模型。
工作流 4:通宵运行。长任务。大测试套件。无聊的数据任务。写 one-shot prompt。按回车。去睡觉。醒来。工作完成。Claude Max 做不到——rate limit 会切断你。本地没有 rate limit。永远。
工作流 5:敏感代码。客户工作。专利。内部工具。NDA 文件。你永远不该把这些上传到云端模型。本地,代码永远不离开你的机器。隐私默认。
混合策略:本地 80% + 云端 20%
最聪明的开发者不选本地 OR 云端。他们用两者。
本地(免费)80%:读代码、写测试、简单编辑、bug 修复、文档编写、code review。你一天的大部分。
云端(付费)20%:大架构决策、大多文件重构、frontier reasoning。难的东西。
切换是一个命令:
# 本地
claude --model qwen3-coder:14b
# 云端
unset ANTHROPIC_BASE_URL
unset ANTHROPIC_AUTH_TOKEN
claude
两个标签。两个大脑。一个 CLI。
这个混合把重度用户从每月 200 美元砍到约 20 美元。重要任务同样质量。不重要的任务零质量损失。
云端仍然赢的五个场景
- 长开放运行。14B/32B 本地模型在长 back-and-forth 后可能丢失 thread。Opus 保持得更好
- 非常长上下文。超过 80K tokens 本地退化。Opus 在 200K 更 sharp
- 最难推理。数学证明。棘手 bug。多跳逻辑。Opus 仍然赢
- 视觉。本地视觉接近但仍 trailing Claude 在截图和图表上
聪明的 play:本地默认。卡住时升级到云端。
成本对比
| 方案 | 月费 | 年费 |
|---|---|---|
| Claude Max | $100-200 | $1,200-2,400 |
| Claude Code API 重度用户 | $60-200 | $720-2,400 |
| Cursor Pro | $40 | $480 |
| 本地栈 | $0 | $0 |
二手 Mac mini 24GB 不到 1,000 美元。对比 Max alone 五个月回本。之后每分钱都是你的。
即使保留云端 Claude 做难的 20%,混合把重度用户从 200/月砍到约 20/月。90% 削减。
开源模型进步速度
- 2023:最佳本地模型是 GPT-4 旁边的笑话
- 2024: decent
- 2025:Qwen 2.5 Coder 达到 Claude 的 5% 以内
- 2026:Qwen 3 Coder 和 DeepSeek V3 在真实工作上达到 Opus 的 80-90%
- 2027:本地将匹配 frontier 在大多数日常任务上
- 2028:差距将很小
你有大约 18 个月。那是本地运行仍然是 slight edge 而不是默认的窗口。之后每个人都会做。早期的 clout 将消失。
打开终端。安装 Ollama。拉取模型。设三个变量。运行 Claude Code。
十分钟后,你将有其他人每月付 200 美元才能拥有的相同工具,零成本运行。永远。