过去几周,Deep Agents 团队用标准评测工具对开源大模型做了系统性评估,结果很清楚:

GLM-5 和 MiniMax M2.7 在核心 Agent 任务上已经与闭源前沿模型持平。

核心数据

文件操作、工具调用、指令遵循——这三个是 Agent 能力的守门指标。开源模型在这三项上得分与 Claude Opus 4 相当,但成本是另一回事:

每天输出 1000 万 token:

  • Opus 4.6:约 250 美元/天
  • MiniMax M2.7:约 12 美元/天

差了 20 倍。

延迟差距同样显著。GLM-5 在 Baseten 上平均延迟 0.65 秒、70 tokens/秒;Claude Opus 4.6 是 2.56 秒、34 tokens/秒。这个差距在做实时交互产品时不是工程能弥补的。

评测方法:四个指标

评测分 7 类:文件操作、工具调用、检索、对话、记忆、摘要、单元测试。每类都有成功断言(决定正确性)和效率断言(衡量路径质量)。

报告四个指标:

  • Correctness:通过率,通过/总数。0.68 即 68% 的测试用例正确解决。
  • Solve rate:准确率和速度的复合指标,每个测试的 expected_steps / wall_clock_seconds 平均值。越高越好。
  • Step ratiototal_actual_steps / total_expected_steps。1.0 刚好,多了是低效,少了是超预期。
  • Tool call ratio:同 Step ratio,但统计的是工具调用次数而非步数。

Step ratio 和 Tool call ratio 不影响测试是否通过,但能揭示模型到达答案的路径是否经济——一个用 2 步解决预期 5 步任务的模型,既正确又高效。

为什么这很重要

对于在生产环境部署 Agent 的开发者,开源模型现在提供的稳定性和可预测性,第一次让真实工作流变得真正可行。

理想状况下当然是用最强的前沿模型做所有任务,但两个现实约束让这不可行:成本,和延迟。闭源前沿模型在高吞吐场景下贵 8-10 倍,对需要快速响应的交互产品来说也太慢。

开源模型的 20 倍成本优势和 4 倍延迟优势,对于任何需要规模化部署 Agent 的团队,不是锦上添花,是基础设施层面的改变。