瓶颈已经转移了。
不再是如何写代码——而是怎么验证行为、怎么捕捉回归、怎么调试失败、怎么在系统演进和用户行为漂移中维护评估和可靠性。
工程的新时代,是设计能持续自我维持和自我改进的系统。
auto-harness 是什么
Gauri Gupta 开源了一套 self-improving loop。让 Agent 连上它,它就自己跑起来:挖 failure、转成 eval、修复 bug。全部自主完成,不需要人盯着。
在 Tau3 基准测试任务上,Agent 分数从 0.56 提升到 0.78——约 40% 的提升,同时自动维护着 live evals。
这个 flywheel 是怎么转的
1. 从生产 traces 里挖 failure
Agent 在真实环境里跑,失败的轨迹被记录下来。
2. 按根因聚类,生成 eval 追踪候选
失败不是单独处理,而是按根因分组。每个 cluster 代表一类问题,可以被一个 eval case 追踪。
3. 把 failure clusters 转成可复用的 living eval cases
一次性的调试变成了持续存在的测试用例。随着 Agent 继续跑,这些 eval case 也在更新。
4. 在测试环境里自主提出并验证 harness 修改建议
不是人来修,是系统自己在隔离环境里实验,验证修改是否有效。
5. 只接受同时满足两个条件的修改
- 性能有提升
- 不在已修复的 failure 上引入回归
核心判断
工程的新时代 = 设计能持续自我改进的系统。这包括:
- 定义 Agent 如何运作的 robust harnesses
- 持续测量行为的 evaluation layers
- 约束系统输出的 constraints
- 把失败转化为可操作信号的 feedback loops
一个 flywheel,依赖 Agent 经验和反馈实时变强。
为什么快过人工
每次迭代,Agent 会探索多个候选并从失败的实验迭代中 self-recover。结果是一个 Agentic harness,比人类进化得更快、更可靠——因为它利用了更多上下文、以远更大规模运行实验、并行探索。
人在这个循环里的角色是设计这个 flywheel,不是执行它。
这篇的核心贡献不是某个具体技术,是把"AI 自我改进"从概念变成了可复用的工程闭环。failure mining → clustering → eval generation → harness modification → validation,这个链条的每一步都是自动化的。如果你在做 Agent 平台或 harness,这套框架值得仔细看——特别是"只接受不引入回归的修改"这一约束条件,防止了越修越烂的常见问题。