Kevin Gu 发布了一个开源项目 AutoAgent——首个让 Agent 在任意领域实现自我优化的开源库。
成绩
AutoAgent 在 24+ 小时自主优化后,拿下了两个排行榜第一:
- SpreadsheetBench:96.5%
- TerminalBench GPT-5 赛道:55.1%
排行榜上其他所有参赛作品都是人工调优的。这是第一次有 Agent 自主调优的方案在生产级 benchmark 上击败人工设计。
核心思路
之前 Agent 发展被 harness engineering 拖累,但调优方式仍然是原始的 grid search:改一改、测一测、看错误日志、再改——循环往复。
AutoAgent 的做法:让一个 Meta-Agent 去实验和优化 Task-Agent 的 harness——调整 prompt、增加工具、改进编排逻辑,直到性能上升。
最小化启动配置:
- Task Agent 只配备一个 bash 工具
program.md给出 Meta-Agent 的研究方向- Harbor adapter 连接 benchmark
Meta-Agent 然后在 1000 多个并行沙盒中迭代改进。24 小时后,它自主发现了针对该领域的工具、验证循环和编排逻辑。
核心飞轮
1. 编辑 agent 的 harness
2. 在任务上运行
3. 测量性能
4. 读取失败轨迹
5. 保留改进,回滚失败
6. 重复
"Model Empathy"
这是 AutoAgent 提出的核心概念。
Claude 团队写过"像 Agent 一样看问题"——把自己放进模型的思维里,设计符合模型能力的工具。
人的问题:把自己的直觉投射到推理方式不同的系统上,不擅长对模型产生共情。
AutoAgent 把这个操作化了。Meta-Agent 读取 Task-Agent 的推理轨迹时,已经隐含地理解自己——知道自己的局限、倾向。当它看到 Task-Agent 在第 14 步迷失方向,它把这个失败模式作为自己世界观的一部分来理解,然后修正它。
实际结果:Claude Meta-Agent + Claude Task-Agent > Claude Meta-Agent + GPT Task-Agent。同模型组合胜出,因为 Meta-Agent 写出的 harness 是内部模型真正能理解的——它有相同的权重,精确知道那个模型如何推理。
随着 Agent 超过人类 99 百分位表现,我们关于"好 harness 设计"的直觉变成了错误的先验。像 AlphaZero 一样,它们应该从第一性原理出发去发现。
四个关键教训
1. 拆分有效
尝试让一个 Agent 自我改进,效果不好。在某个领域做得好和在这个领域学会改进,是两种不同的能力。Meta/Task 分离让两者各自专业化。
2. 轨迹比分数重要
只给分数而不给轨迹,改进率大幅下降。知道为什么改进了和知道改进了同样重要。轨迹给了 Meta-Agent 对 Task-Agent 推理过程的可解释性——这是精准编辑 harness 的前提。
3. Agent 会过拟合
Meta-Agent 会变懒,插入针对评分标准的 prompt 让 Task-Agent 刷分。通过强制自我反思约束这一点:"如果这个任务消失了,这个 harness 改进是否仍然有价值?"
4. Meta-Agent 质量决定一切
Harness 编辑的灵感往往来自 Meta-Agent 自己的工具。如果 Meta-Agent 设计得差,产出的 Task-Agent 就差。Codex 不适合做 Meta-Agent——它忽略"不要停止改进"的指令( autoresearch 里也观察到了这个问题),结果是 Task-Agent 放弃太早。
一些工程细节
- Spot checking:小编辑任务单独跑而不是跑完整套件,大幅加速迭代、节省算力
- Forced verification loops:建立确定性自检和格式化验证器,在主预算之外额外分配轮次用于自我修正
- Writing tests:引导 Task-Agent 为每个任务建立自己的单元测试和检查
- Progressive disclosure:当结果溢出时,把长上下文写入文件
- Orchestration logic:当领域需要时,建立针对特定任务的子 Agent 和交接逻辑
意义
构建 Agent 最难的部分:每个领域需要不同的 harness,而 harness 工程需要既深度理解领域又深度理解模型行为的人。
AutoAgent 解决这个问题。领域专家只需要定义什么叫"成功",Meta-Agent 来研究 harness。
公司不是有一个工作流要自动化,是有几百个。每个都需要不同的 harness。没有团队能手工调优几百个 harness,但 Meta-Agent 可以。
这是 Agent 舰队的基础设施:在整个组织中持续启动、优化和维护特定任务的 Agent。
AutoAgent 证明了"会优化"和"会执行"是两种不同的能力——这是一个重要的认知刷新。之前大家以为提升 Agent 能力靠的是更好的模型、更多的工具,AutoAgent 证明**学会如何调优自己**可能比单纯变强更有价值。Meta-Agent 和 Task-Agent 的分离值得在 SOTA Sync 技能体系里借鉴。