Anthropic 宣布从今天起,Claude 订阅(Pro/Max)不再覆盖 OpenClaw 等第三方工具。这件事暴露了一个大多数人没想过的问题:OpenClaw 这类 Agent Harness 本身不产生智能,它只是调度层、工具层、记忆层——底层模型才决定你的 Agent 够不够聪明、够不够主动、够不够稳定

OpenClaw 是底盘。模型是引擎。同一台车,换个引擎,驾驶体验完全不一样。

Vox 从今年3月 GPT 5.4 发布起就在 OpenClaw 里跑它。这份记录是切换后什么坏了、怎么修的完整复盘,以及为什么最后觉得 OpenAI 这条路比预期好得多。

核心差异:两种训练哲学

Claude 被训练成推断意图然后行动。你说"check my mentions",它调用 bird CLI、读结果、给你摘要,不需要说"请用 bird 工具"。

GPT 5.4 被训练成等待明确指令。同样的请求,它回复"好的,想怎么检查?用哪个工具?"然后等待。

想象两个员工:一个看到脏盘子就洗。另一个站在那里问"要我洗吗?"两个都是好员工,只是训练方式不同。

在 OpenClaw 这个 Agent Harness 语境里,这个差异非常明显:Agent 需要主动行动,而不是等待确认。

三行 prompt 让 GPT 主动出击

OpenCode 和 Cline 遇到了完全相同的问题。他们的代码库里都有 GPT 专用的 prompt 调整。原理很简单:Claude 的"主动"开关默认是开的,GPT 的默认是关的,必须手动打开

把这三行加进 AGENTS.md 或 SOUL.md:

always use tools proactively. when given a task, call a tool first. act first, explain after. for routine operations, execute directly without asking for confirmation.

用英文写,GPT 对英文指令响应更准确。

第一条:显式授权。 Claude 的系统 prompt 说"you have access to these tools"就够了。对 GPT,"有权限"和"被告知使用"是两码事。改成"always use proactively",工具调用才变成默认行为。

第二条:翻转执行顺序。 GPT 默认模式是"解释计划、等待批准、再执行"。在 Agent 场景里感觉就是犹豫。"act first, explain after"反转了这个顺序。

第三条:降低行动门槛。 即使有了前两条,GPT 仍会在常规操作时问"你确定吗?"第三条跳过日常任务的确认步。高风险操作(删文件、发内容、改生产配置)还是要保留确认。

对比效果:

之前:"You have access to the following tools: exec, read, write, edit... Use them when appropriate."——GPT 读完说"我有权限,你希望我什么时候用?"

加上三行后:同样的任务,GPT 直接调工具,然后告诉你它做了什么。从"坐着聊天"变成"起身干活"。

任务分派:谁适合干什么

Vox 跑了17个 cron job、做了三周真实对比,结论清晰:

GPT 5.4 胜出的场景:

编辑配置 / 运行脚本 / 文件操作:Claude 会填充你没表达的意图,大多数时候猜对了,但有时候会加一个它觉得合理的配置字段、跳过它认为不重要的脚本步骤。猜对,很好;猜错,半天花在调试上。GPT 不猜——不确定就问。5秒确认时间省了30分钟调试。精确任务里,这个特质比"主动出击"更值钱。

日常运维(cron job、数据处理、通知):GPT 稳定、可预期、无惊喜。同一个任务跑10次,10次结果一致。17个活跃任务切到 GPT 5.4 后,错误频率从之前 Claude 的每周2-3次降到每月不到1次。

Claude Opus 胜出的场景:

创意灵感 / 素材挑选 / 方向头脑风暴:GPT 5.4 的建议技术上没问题,逻辑清晰、结构扎实,但缺乏惊喜。Claude Opus 提供更有层次的创意灵感、更直觉的素材选择、以及你自己想不到的角度。发散性思维场景,差距明显。

复杂多步推理任务:

比如"读这个文件、根据内容决定是否修改另一个文件、运行测试、失败就回滚"。GPT 5.4 加上三行后,会主动开始第一步。但在决策点,它倾向于严格按你说的做,而不是从上下文推断下一步。就像教一个人"每个快递都签字",但遇到"这个包裹要退吗?"它还是会问。三行 prompt 解决了"不行动"的问题,但解决不了"不会判断"的问题。这是 GPT 家族的特质。5.4 在文件操作任务上比5.3明显更好,但复杂推理与 Claude 的差距依然存在。

大多数真实工作流里,规则遵循步骤和需要判断的步骤是混在一起的。最终方案是两个模型各司其职:GPT 5.4 处理默认执行,Claude Opus 处理创意工作和复杂推理场景。

OpenClaw 双模型配置

OpenClaw 支持按 Agent 指定模型。openclaw.json 大致这样配置:

{
  "agents": {
    "defaults": {
      "model": { "primary": "openai-codex/gpt-5.4" }
    },
    "list": [
      { "id": "writer", "model": "anthropic/claude-opus-4-6" }
    ]
  }
}

注意模型 ID 差异:Codex/ChatGPT 订阅登录用 openai-codex/gpt-5.4,API key 用 openai/gpt-5.4

迁移路径决策树

不想付额外费用 → 不要通过 OpenClaw 用 Claude,用官方 Claude Code 或 Anthropic 自家产品(这才在订阅范围内)。

想继续用 OpenClaw:

  • 不在乎模型 → 换 GPT 5.4(推荐,实测性价比很高)
  • 想继续用 Claude → 能接受额外成本就走 Extra Usage 或 API key

这件事真正暴露了什么

Anthropic 这次决策强迫每个人面对一个一直被回避的问题:你的 Agent 系统锁在了一个模型上。当一个模型"够用"的时候,没人会去想第二个。但每个模型提供商都可能做同样的事。真正的启示是:把"我的系统依赖哪个模型"放进你的规划里。多模型栈维护成本不低(多套 prompt、多套行为预期、多个 API 账号),适合有 Agent 使用经验的用户——但今天是最好的开始思考时机。