这句话是核心:如果想让 Agent 做人类做的工作,就要给它人类第一天就有的东西——一台完整的机器、GitHub 组织权限、Slack、Linear、Datadog。

这意味着你的角色也在变:你不再是在第一行写代码的人,而是搭建系统、定义"什么是好、什么是坏"的人。这个转变本质上和为人类工程师做 DX(开发者体验)优化是同一件事。

三块积木:Primitives、Guardrails、Enablers

Primitives and Patterns是 Agent 可以直接使用的现成模块,而不是让它自己发明。

代码要放在一起:Agent 需要改的代码和它参考的代码在同一目录,它就能找到;隔了三层目录还绕了抽象,它就找不到。用法模式(Usage Patterns)是把"我们这儿这样做"的共识编码进去——NPM 脚本、README 示例,都是这个作用。

Guardrails是告诉你 Agent 有没有跑偏的信号。

规则(Rules)是主动拦截,在 Agent 行动之前就拦住——比如 Bugbot 规则在数据库迁移写下去之前就捕捉到不安全的模式。钩子(Hooks)是响应式的,特定文件被修改时触发某个工具或直接阻断。测试是最后一层:如果 Agent 自己无法验证自己的输出,你就是那个瓶颈。

Enablers是让 Agent 长时间无人值守运行的保障。

Skills 把重复性工作打包成可复用单元——任何你解释过两次以上的东西都应该做成 Skill。MCP 把 Agent 连接到团队已有的系统——Slack 提供上下文、Datadog 查日志。

四个验证关卡

Cursor 团队总结的检查清单:

Agent 能启动本地环境吗?大多数代码库的初始化步骤从来没有被文档化,只存在于老员工的脑子里。Agent 没有"部落",目前也借不了力。

Agent 能跑测试并理解输出吗?如果测试输出充满噪音或报错信息模糊,Agent 只能猜测。你的工程师同事也会猜——只是他们更擅长。

Agent 能拉外部上下文吗?日志、issue、任务、版本历史。一旦它需要另一个系统的信息就死胡同,你永远要当那个中间人。

Agent 能验证自己的改动吗?测试、类型检查、dev server、headless 浏览器截图。如果它没办法确认自己做对了,你就是验证步骤本身,循环速度的上限就是你。

投入会复利

花一周优化流程而不是直接干活,这件事在小团队里很难说服人。但为 Agent 工作准备环境的投入,会在每一个并行跑的 Agent 上复利——而你可以同时跑很多个。

模型还在快速进步。如果这个趋势延续,做好准备的代码库和环境会快速拉开差距。

下一步是给 Agent 配自己的机器。Cursor 的做法:每个 Agent 运行在独立的隔离 VM 上,有完整的开发环境,能在交回 PR 之前用自己的截图、视频、日志验证自己的改动。