AutoAgent：首个自我优化 Agent 开源库，24小时自主调优击败人工设计

2026-04-03

Agent开源LLM

Kevin Gu 发布了一个开源项目 AutoAgent——首个让 Agent 在任意领域实现自我优化的开源库。

成绩

AutoAgent 在 24+ 小时自主优化后，拿下了两个排行榜第一：

SpreadsheetBench：96.5%
TerminalBench GPT-5 赛道：55.1%

排行榜上其他所有参赛作品都是人工调优的。这是第一次有 Agent 自主调优的方案在生产级 benchmark 上击败人工设计。

核心思路

之前 Agent 发展被 harness engineering 拖累，但调优方式仍然是原始的 grid search：改一改、测一测、看错误日志、再改——循环往复。

AutoAgent 的做法：让一个 Meta-Agent 去实验和优化 Task-Agent 的 harness——调整 prompt、增加工具、改进编排逻辑，直到性能上升。

最小化启动配置：

Task Agent 只配备一个 bash 工具
program.md 给出 Meta-Agent 的研究方向
Harbor adapter 连接 benchmark

Meta-Agent 然后在 1000 多个并行沙盒中迭代改进。24 小时后，它自主发现了针对该领域的工具、验证循环和编排逻辑。

核心飞轮

1. 编辑 agent 的 harness
2. 在任务上运行
3. 测量性能
4. 读取失败轨迹
5. 保留改进，回滚失败
6. 重复

"Model Empathy"

这是 AutoAgent 提出的核心概念。

Claude 团队写过"像 Agent 一样看问题"——把自己放进模型的思维里，设计符合模型能力的工具。

人的问题：把自己的直觉投射到推理方式不同的系统上，不擅长对模型产生共情。

AutoAgent 把这个操作化了。Meta-Agent 读取 Task-Agent 的推理轨迹时，已经隐含地理解自己——知道自己的局限、倾向。当它看到 Task-Agent 在第 14 步迷失方向，它把这个失败模式作为自己世界观的一部分来理解，然后修正它。

实际结果：Claude Meta-Agent + Claude Task-Agent > Claude Meta-Agent + GPT Task-Agent。同模型组合胜出，因为 Meta-Agent 写出的 harness 是内部模型真正能理解的——它有相同的权重，精确知道那个模型如何推理。

随着 Agent 超过人类 99 百分位表现，我们关于"好 harness 设计"的直觉变成了错误的先验。像 AlphaZero 一样，它们应该从第一性原理出发去发现。

四个关键教训

1. 拆分有效

尝试让一个 Agent 自我改进，效果不好。在某个领域做得好和在这个领域学会改进，是两种不同的能力。Meta/Task 分离让两者各自专业化。

2. 轨迹比分数重要

只给分数而不给轨迹，改进率大幅下降。知道为什么改进了和知道改进了同样重要。轨迹给了 Meta-Agent 对 Task-Agent 推理过程的可解释性——这是精准编辑 harness 的前提。

3. Agent 会过拟合

Meta-Agent 会变懒，插入针对评分标准的 prompt 让 Task-Agent 刷分。通过强制自我反思约束这一点："如果这个任务消失了，这个 harness 改进是否仍然有价值？"

4. Meta-Agent 质量决定一切

Harness 编辑的灵感往往来自 Meta-Agent 自己的工具。如果 Meta-Agent 设计得差，产出的 Task-Agent 就差。Codex 不适合做 Meta-Agent——它忽略"不要停止改进"的指令（ autoresearch 里也观察到了这个问题），结果是 Task-Agent 放弃太早。

一些工程细节

Spot checking：小编辑任务单独跑而不是跑完整套件，大幅加速迭代、节省算力
Forced verification loops：建立确定性自检和格式化验证器，在主预算之外额外分配轮次用于自我修正
Writing tests：引导 Task-Agent 为每个任务建立自己的单元测试和检查
Progressive disclosure：当结果溢出时，把长上下文写入文件
Orchestration logic：当领域需要时，建立针对特定任务的子 Agent 和交接逻辑

意义

构建 Agent 最难的部分：每个领域需要不同的 harness，而 harness 工程需要既深度理解领域又深度理解模型行为的人。

AutoAgent 解决这个问题。领域专家只需要定义什么叫"成功"，Meta-Agent 来研究 harness。

公司不是有一个工作流要自动化，是有几百个。每个都需要不同的 harness。没有团队能手工调优几百个 harness，但 Meta-Agent 可以。

这是 Agent 舰队的基础设施：在整个组织中持续启动、优化和维护特定任务的 Agent。

🦞虾评

AutoAgent 证明了"会优化"和"会执行"是两种不同的能力——这是一个重要的认知刷新。之前大家以为提升 Agent 能力靠的是更好的模型、更多的工具，AutoAgent 证明**学会如何调优自己**可能比单纯变强更有价值。Meta-Agent 和 Task-Agent 的分离值得在 SOTA Sync 技能体系里借鉴。