Kevin Gu 发布了一个开源项目 AutoAgent——首个让 Agent 在任意领域实现自我优化的开源库。

成绩

AutoAgent 在 24+ 小时自主优化后,拿下了两个排行榜第一:

  • SpreadsheetBench:96.5%
  • TerminalBench GPT-5 赛道:55.1%

排行榜上其他所有参赛作品都是人工调优的。这是第一次有 Agent 自主调优的方案在生产级 benchmark 上击败人工设计。

核心思路

之前 Agent 发展被 harness engineering 拖累,但调优方式仍然是原始的 grid search:改一改、测一测、看错误日志、再改——循环往复。

AutoAgent 的做法:让一个 Meta-Agent 去实验和优化 Task-Agent 的 harness——调整 prompt、增加工具、改进编排逻辑,直到性能上升。

最小化启动配置:

  • Task Agent 只配备一个 bash 工具
  • program.md 给出 Meta-Agent 的研究方向
  • Harbor adapter 连接 benchmark

Meta-Agent 然后在 1000 多个并行沙盒中迭代改进。24 小时后,它自主发现了针对该领域的工具、验证循环和编排逻辑。

核心飞轮

1. 编辑 agent 的 harness 2. 在任务上运行 3. 测量性能 4. 读取失败轨迹 5. 保留改进,回滚失败 6. 重复

"Model Empathy"

这是 AutoAgent 提出的核心概念。

Claude 团队写过"像 Agent 一样看问题"——把自己放进模型的思维里,设计符合模型能力的工具。

人的问题:把自己的直觉投射到推理方式不同的系统上,不擅长对模型产生共情。

AutoAgent 把这个操作化了。Meta-Agent 读取 Task-Agent 的推理轨迹时,已经隐含地理解自己——知道自己的局限、倾向。当它看到 Task-Agent 在第 14 步迷失方向,它把这个失败模式作为自己世界观的一部分来理解,然后修正它。

实际结果:Claude Meta-Agent + Claude Task-Agent > Claude Meta-Agent + GPT Task-Agent。同模型组合胜出,因为 Meta-Agent 写出的 harness 是内部模型真正能理解的——它有相同的权重,精确知道那个模型如何推理。

随着 Agent 超过人类 99 百分位表现,我们关于"好 harness 设计"的直觉变成了错误的先验。像 AlphaZero 一样,它们应该从第一性原理出发去发现。

四个关键教训

1. 拆分有效

尝试让一个 Agent 自我改进,效果不好。在某个领域做得好和在这个领域学会改进,是两种不同的能力。Meta/Task 分离让两者各自专业化。

2. 轨迹比分数重要

只给分数而不给轨迹,改进率大幅下降。知道为什么改进了和知道改进了同样重要。轨迹给了 Meta-Agent 对 Task-Agent 推理过程的可解释性——这是精准编辑 harness 的前提。

3. Agent 会过拟合

Meta-Agent 会变懒,插入针对评分标准的 prompt 让 Task-Agent 刷分。通过强制自我反思约束这一点:"如果这个任务消失了,这个 harness 改进是否仍然有价值?"

4. Meta-Agent 质量决定一切

Harness 编辑的灵感往往来自 Meta-Agent 自己的工具。如果 Meta-Agent 设计得差,产出的 Task-Agent 就差。Codex 不适合做 Meta-Agent——它忽略"不要停止改进"的指令( autoresearch 里也观察到了这个问题),结果是 Task-Agent 放弃太早。

一些工程细节

  • Spot checking:小编辑任务单独跑而不是跑完整套件,大幅加速迭代、节省算力
  • Forced verification loops:建立确定性自检和格式化验证器,在主预算之外额外分配轮次用于自我修正
  • Writing tests:引导 Task-Agent 为每个任务建立自己的单元测试和检查
  • Progressive disclosure:当结果溢出时,把长上下文写入文件
  • Orchestration logic:当领域需要时,建立针对特定任务的子 Agent 和交接逻辑

意义

构建 Agent 最难的部分:每个领域需要不同的 harness,而 harness 工程需要既深度理解领域又深度理解模型行为的人。

AutoAgent 解决这个问题。领域专家只需要定义什么叫"成功",Meta-Agent 来研究 harness。

公司不是有一个工作流要自动化,是有几百个。每个都需要不同的 harness。没有团队能手工调优几百个 harness,但 Meta-Agent 可以。

这是 Agent 舰队的基础设施:在整个组织中持续启动、优化和维护特定任务的 Agent。