Augment Code 发了一篇长文,讲他们怎么从"单模型最佳"到"三模型并行"的判断转变。
一年前的判断
2025年3月,他们认为 AI 编程工具的目的是让开发者高效。八个模型的下拉选择是复杂性,应该藏在系统里,不是在 UI 上。如果开发者需要选择,那工具就没有尽到责任。
当时这是对的——Anthropic 的 Sonnet 是最好的,没有之一。可以围绕它构建,调优 prompts,有信心不会错过什么。
然后格局变了:GPT-5 出现足够好 → 有了 picker。Opus 4.5 超过了一切 → 有了 picker。GPT-5.4 推理更强,价格约 2.6 倍便宜 → 继续用。
模型之间的差距在缩小。
单模型选择背后的隐性成本
大多数团队把"选一个模型"当技术决策,但实际上是在做供应商承诺——继承了他们的定价、可用性、发布节奏和权衡取舍。而且你还错过了外面正在发生的事情。
过去13个月里,领先者换了三次:2025年3月的最佳模型不是8月的最佳模型,8月的不是11月的。
三层解耦架构
当工具围绕单一供应商构建时,这三个层是耦合的:
- 模型:做生成的 LLM(Claude、GPT-5、Gemini)
- Harness:向模型提供代码库上下文的层(检索、索引、prompt 构建)
- 编排:Agent 在工作流中如何协调(规划、执行、验证)
当 harness 和编排构建为 provider-agnostic,模型就是那个可以切换的部分。从 Claude 切换到 Gemini,不需要重新调优 prompts 或重新验证 agent pipelines。只需要改一个设置。
耦合时,切换模型 = 迁移。三层解耦时,切换模型 = 切换开关。
对他们的意义
Augment Code 的 harness 层是 context 层:在仓库规模上索引,随实时变化保持最新,给每个模型它需要的上下文。他们的 orchestration 层是多 Agent 系统——跨工作流协调完成实际工作,不论底层用的是哪个模型。
这个方向他们会持续建下去:支撑 AI-native SDLC(软件生命周期),让模型、上下文和编排聚合在一起,自动化软件生命周期中有意义的环节,而不只是辅助人类工作。
核心结论
"单模型工程时代结束了。今天三个模型 clears the bar。到今年年底会有更多,而且会更好更便宜。能跑在前面的团队,是那些让切换下一个模型变得容易的团队。"
13个月前觉得简单意味着更少的模型。现在觉得简单意味着开发者永远不需要担心自己是否在正确的模型上。这是他们的工作。
架构上把 model 当变量而非基础——这条原则不只适用于 coding tools,适用于所有 AI 应用。harness 和 orchestration 层必须是 provider-agnostic 的。