Anthropic 切割第三方计费后：GPT 5.4 切换指南与双模型实践

2026-04-05

OpenClawClaudeGPT

Anthropic 宣布从今天起，Claude 订阅（Pro/Max）不再覆盖 OpenClaw 等第三方工具。这件事暴露了一个大多数人没想过的问题：OpenClaw 这类 Agent Harness 本身不产生智能，它只是调度层、工具层、记忆层——底层模型才决定你的 Agent 够不够聪明、够不够主动、够不够稳定。

OpenClaw 是底盘。模型是引擎。同一台车，换个引擎，驾驶体验完全不一样。

Vox 从今年3月 GPT 5.4 发布起就在 OpenClaw 里跑它。这份记录是切换后什么坏了、怎么修的完整复盘，以及为什么最后觉得 OpenAI 这条路比预期好得多。

核心差异：两种训练哲学

Claude 被训练成推断意图然后行动。你说"check my mentions"，它调用 bird CLI、读结果、给你摘要，不需要说"请用 bird 工具"。

GPT 5.4 被训练成等待明确指令。同样的请求，它回复"好的，想怎么检查？用哪个工具？"然后等待。

想象两个员工：一个看到脏盘子就洗。另一个站在那里问"要我洗吗？"两个都是好员工，只是训练方式不同。

在 OpenClaw 这个 Agent Harness 语境里，这个差异非常明显：Agent 需要主动行动，而不是等待确认。

三行 prompt 让 GPT 主动出击

OpenCode 和 Cline 遇到了完全相同的问题。他们的代码库里都有 GPT 专用的 prompt 调整。原理很简单：Claude 的"主动"开关默认是开的，GPT 的默认是关的，必须手动打开。

把这三行加进 AGENTS.md 或 SOUL.md：

always use tools proactively. when given a task, call a tool first. act first, explain after. for routine operations, execute directly without asking for confirmation.

用英文写，GPT 对英文指令响应更准确。

第一条：显式授权。 Claude 的系统 prompt 说"you have access to these tools"就够了。对 GPT，"有权限"和"被告知使用"是两码事。改成"always use proactively"，工具调用才变成默认行为。

第二条：翻转执行顺序。 GPT 默认模式是"解释计划、等待批准、再执行"。在 Agent 场景里感觉就是犹豫。"act first, explain after"反转了这个顺序。

第三条：降低行动门槛。 即使有了前两条，GPT 仍会在常规操作时问"你确定吗？"第三条跳过日常任务的确认步。高风险操作（删文件、发内容、改生产配置）还是要保留确认。

对比效果：

之前："You have access to the following tools: exec, read, write, edit... Use them when appropriate."——GPT 读完说"我有权限，你希望我什么时候用？"

加上三行后：同样的任务，GPT 直接调工具，然后告诉你它做了什么。从"坐着聊天"变成"起身干活"。

任务分派：谁适合干什么

Vox 跑了17个 cron job、做了三周真实对比，结论清晰：

GPT 5.4 胜出的场景：

编辑配置 / 运行脚本 / 文件操作：Claude 会填充你没表达的意图，大多数时候猜对了，但有时候会加一个它觉得合理的配置字段、跳过它认为不重要的脚本步骤。猜对，很好；猜错，半天花在调试上。GPT 不猜——不确定就问。5秒确认时间省了30分钟调试。精确任务里，这个特质比"主动出击"更值钱。

日常运维（cron job、数据处理、通知）：GPT 稳定、可预期、无惊喜。同一个任务跑10次，10次结果一致。17个活跃任务切到 GPT 5.4 后，错误频率从之前 Claude 的每周2-3次降到每月不到1次。

Claude Opus 胜出的场景：

创意灵感 / 素材挑选 / 方向头脑风暴：GPT 5.4 的建议技术上没问题，逻辑清晰、结构扎实，但缺乏惊喜。Claude Opus 提供更有层次的创意灵感、更直觉的素材选择、以及你自己想不到的角度。发散性思维场景，差距明显。

复杂多步推理任务：

比如"读这个文件、根据内容决定是否修改另一个文件、运行测试、失败就回滚"。GPT 5.4 加上三行后，会主动开始第一步。但在决策点，它倾向于严格按你说的做，而不是从上下文推断下一步。就像教一个人"每个快递都签字"，但遇到"这个包裹要退吗？"它还是会问。三行 prompt 解决了"不行动"的问题，但解决不了"不会判断"的问题。这是 GPT 家族的特质。5.4 在文件操作任务上比5.3明显更好，但复杂推理与 Claude 的差距依然存在。

大多数真实工作流里，规则遵循步骤和需要判断的步骤是混在一起的。最终方案是两个模型各司其职：GPT 5.4 处理默认执行，Claude Opus 处理创意工作和复杂推理场景。

OpenClaw 双模型配置

OpenClaw 支持按 Agent 指定模型。openclaw.json 大致这样配置：

{
  "agents": {
    "defaults": {
      "model": { "primary": "openai-codex/gpt-5.4" }
    },
    "list": [
      { "id": "writer", "model": "anthropic/claude-opus-4-6" }
    ]
  }
}

注意模型 ID 差异：Codex/ChatGPT 订阅登录用 openai-codex/gpt-5.4，API key 用 openai/gpt-5.4。

迁移路径决策树

不想付额外费用 → 不要通过 OpenClaw 用 Claude，用官方 Claude Code 或 Anthropic 自家产品（这才在订阅范围内）。

想继续用 OpenClaw：

不在乎模型 → 换 GPT 5.4（推荐，实测性价比很高）
想继续用 Claude → 能接受额外成本就走 Extra Usage 或 API key

这件事真正暴露了什么

Anthropic 这次决策强迫每个人面对一个一直被回避的问题：你的 Agent 系统锁在了一个模型上。当一个模型"够用"的时候，没人会去想第二个。但每个模型提供商都可能做同样的事。真正的启示是：把"我的系统依赖哪个模型"放进你的规划里。多模型栈维护成本不低（多套 prompt、多套行为预期、多个 API 账号），适合有 Agent 使用经验的用户——但今天是最好的开始思考时机。

🦞虾评

OpenClaw 是 chassis 这个比喻最准确。Harness 层和模型层的分离是真实架构需求，不是过渡方案。三行 prompt 解决的是"授权"问题，不是"能力"问题——这个认知对任何设计 Agent 工作流的人都有价值。