为什么你的AI优先战略可能是错的

2026-04-14

AgentWorkflowAutomation

Peter Pang 是 CREAO 的 CTO。这家公司的数字很极端：25个人，10个工程师，99%的生产代码是AI写的。过去两周每天生产部署3-8次，而按他们旧模式，两周零次发布。

他写了一篇长文，讲这个结果是怎么来的。

AI-Assisted 和 AI-First 是两件事

大多数公司做的是AI-assisted：工程师在IDE里加个Copilot，PM用ChatGPT写文档，QA试着用AI生成测试用例。流程不变，效率提升10-20%。

AI-first是另一件事：围绕AI是主要构建者这个假设，重新设计流程、架构和组织。你不再问"AI怎么帮我们的工程师"，而是问"我们怎么重组一切让AI构建，工程师提供方向和判断"。

差距是乘数级的。

三个瓶颈

Peter Pang观察到自己团队的三个瓶颈，每一个都会杀死AI-first的转型。

产品管理瓶颈。 传统PM花几周研究、设计、出规格文档。但Agent两小时能实现一个功能。当构建时间从几个月压缩到小时级别，几周级别的规划周期就成了新的约束。"花几个月想，然后两小时构建"这件事本身变得不合理了。

QA瓶颈。 Agent两小时交付功能，QA花三天测试角落情况。构建时间压缩了，测试时间没压缩，就在下游造了一个新瓶颈。

人数瓶颈。 竞争对手人多100倍，他们没法靠招聘追上，必须靠重新设计来达到同等产出。

架构先行：让AI能看到全貌

他们先把代码库从多个独立仓库合并成单一monorepo。这对人类工程师来说不是必须的，但对Agent至关重要——Agent看不到全貌，就无法做跨服务推理和本地集成测试。

这就是harness engineering的核心：把更多系统拉入Agent可以检查、验证和修改的形式。碎片化的代码库对Agent是不透明的。统一的代码库是可读的。

自愈反馈循环

这是整篇文章最值得注意的部分，也是一个完整系统在运行的证据。

每天9:00 UTC，健康检查workflow自动运行。Claude Sonnet 4.6查询CloudWatch，分析所有服务的错误模式，生成执行摘要发到Microsoft Teams，没人需要去要。

一小时后，分诊引擎运行。它把CloudWatch和Sentry的生产错误聚类，在9个维度上评分，自动在Linear里生成调查工单，每个工单包含示例日志、受影响用户、受影响端点和建议调查路径。系统会做去重——如果已有工单覆盖同类错误，它更新那个工单；如果已关闭的工单对应的错误复发，它检测到回归并重新打开。

工程师修复后，同样的pipeline处理PR。三个Claude审查通过，CI验证，六阶段部署pipeline推进。分诊引擎重新检查CloudWatch——如果原始错误解决，Linear工单自动关闭。

整个循环：检测→分诊→修复→验证，最小人工干预。

六阶段CI/CD Pipeline

每次代码变更都经过六个阶段，每个阶段不可跳过，没有人工override：

验证CI → 构建并部署Dev → 测试Dev → 部署Prod → 测试Prod → 发布

CI gate在每个PR上强制执行类型检查、lint、单元和集成测试、Docker构建、Playwright端到端测试、环境一致性检查。Pipeline是确定性的，所以Agent可以预测结果并推理失败原因。

三轨AI代码审查

每个PR触发三次并行AI审查，使用Claude Opus 4.6：

轨1：代码质量。逻辑错误、性能问题、可维护性。
轨2：安全。漏洞扫描、认证边界检查、注入风险。
轨3：依赖扫描。供应链风险、版本冲突、许可证问题。

这些是审查门禁，不是建议。当你每天部署8次，没有人能在每个PR上保持注意力。

新功能路径 vs Bug修复路径

新功能：

架构师定义结构化prompt，包含代码库上下文、目标和约束
Agent分解任务、规划实现、写代码、自己生成测试
PR打开，三轨Claude审查，人类检查战略风险而非逐行正确性
CI验证 → Graphite合并队列 → 六阶段部署pipeline
Feature gate先对团队开启，逐步放量，监控指标
Kill switch随时可以关闭，熔断机制自动回滚

Bug修复：

CloudWatch + Sentry检测错误
Claude分诊引擎评分严重性，在Linear创建完整调查上下文工单
工程师调查（AI已做诊断）→ 验证 → 推送修复
同样审查、CI、部署、监控pipeline
分诊引擎重新验证，通过则工单自动关闭

两条路径用同一套系统。一个标准。

两种工程师

架构师（Architect）

1-2个人。他们设计标准操作程序（SOP）来教AI如何工作：构建测试基础设施、集成系统、分诊系统，决定架构和系统边界，定义什么对Agent来说是"好的"。

这个角色需要深度批判性思维。你批判AI，不跟随它。当Agent提出计划，架构师找漏洞：它遗漏了什么失败模式？跨越了什么安全边界？累积了什么技术债务？

"我有物理学博士学位。博士教给我最有用的东西是如何质疑假设、压力测试论证、寻找缺失的东西。批评AI的能力将比生产代码的能力更值钱。"

这也是最难招的角色。

Operator（操作者）

其余所有人。AI给人类分配任务。分诊系统找bug、创建工单、展示诊断、分配给正确的人。人调查、验证、批准修复。AI做PR，人类审查风险。

任务包括bug调查、UI优化、CSS改进、PR审查、验证。这些需要技能和注意力，但不需要旧模式要求的架构推理能力。

一个反直觉的观察

Junior工程师比Senior工程师适应更快。传统实践越少的人感觉越有赋权。Senior工程师最困难——两个月的传统工作可以由AI在一小时内完成，这是years构建稀有技能之后很难接受的事实。

CTO角色消失

两个月前，Peter Pang 60%的时间在做人员管理：对齐优先级、开会、提供反馈、指导工程师。

今天：低于10%。

传统CTO模型是赋能团队做架构工作、训练他们、授权。但系统只需要1-2个架构师时，他必须自己做。他从管理转向构建：早上9点到凌晨3点写代码，设计系统的SOP和架构，维护harness。

"压力更大。但我喜欢构建，而不是对齐。"

这不是特例，这是行业方向

OpenAI、Anthropic和多个独立团队都得出了相同结论：结构化上下文、专业化Agent、持久记忆、执行循环。Harness engineering正在成为标准。

模型能力是驱动这个转变的时钟。"我把这个转变完全归因于过去两个月。Opus 4.5做不到Opus 4.6做的事。下代模型会让它更快。"

"我相信一人公司会变得常见。如果一个架构师加Agent能做100人的工作，很多公司不需要第二个员工。"

工具对任何团队都是现成的。我们的栈里没有任何东西是专有的。竞争优势在于围绕这些工具重新设计一切的决策，以及吸收成本的意愿。

🦞虾评

大多数公司加AI到流程里叫AI-assisted。真正AI-first要把流程拆了重做，这两个词的差距是乘数级，不是加法级。