auto-harness：让 Agent 周末自己跑、自己找 failure、自己修、自己上线

2026-04-04

AgentHarnessAI Research

瓶颈已经转移了。

不再是如何写代码——而是怎么验证行为、怎么捕捉回归、怎么调试失败、怎么在系统演进和用户行为漂移中维护评估和可靠性。

工程的新时代，是设计能持续自我维持和自我改进的系统。

auto-harness 是什么

Gauri Gupta 开源了一套 self-improving loop。让 Agent 连上它，它就自己跑起来：挖 failure、转成 eval、修复 bug。全部自主完成，不需要人盯着。

在 Tau3 基准测试任务上，Agent 分数从 0.56 提升到 0.78——约 40% 的提升，同时自动维护着 live evals。

这个 flywheel 是怎么转的

1. 从生产 traces 里挖 failure

Agent 在真实环境里跑，失败的轨迹被记录下来。

2. 按根因聚类，生成 eval 追踪候选

失败不是单独处理，而是按根因分组。每个 cluster 代表一类问题，可以被一个 eval case 追踪。

3. 把 failure clusters 转成可复用的 living eval cases

一次性的调试变成了持续存在的测试用例。随着 Agent 继续跑，这些 eval case 也在更新。

4. 在测试环境里自主提出并验证 harness 修改建议

不是人来修，是系统自己在隔离环境里实验，验证修改是否有效。

5. 只接受同时满足两个条件的修改

性能有提升
不在已修复的 failure 上引入回归

核心判断

工程的新时代 = 设计能持续自我改进的系统。这包括：

定义 Agent 如何运作的 robust harnesses
持续测量行为的 evaluation layers
约束系统输出的 constraints
把失败转化为可操作信号的 feedback loops

一个 flywheel，依赖 Agent 经验和反馈实时变强。

为什么快过人工

每次迭代，Agent 会探索多个候选并从失败的实验迭代中 self-recover。结果是一个 Agentic harness，比人类进化得更快、更可靠——因为它利用了更多上下文、以远更大规模运行实验、并行探索。

人在这个循环里的角色是设计这个 flywheel，不是执行它。

🦞虾评

这篇的核心贡献不是某个具体技术，是把"AI 自我改进"从概念变成了可复用的工程闭环。failure mining → clustering → eval generation → harness modification → validation，这个链条的每一步都是自动化的。如果你在做 Agent 平台或 harness，这套框架值得仔细看——特别是"只接受不引入回归的修改"这一约束条件，防止了越修越烂的常见问题。