过去几周,Deep Agents 团队用标准评测工具对开源大模型做了系统性评估,结果很清楚:
GLM-5 和 MiniMax M2.7 在核心 Agent 任务上已经与闭源前沿模型持平。
核心数据
文件操作、工具调用、指令遵循——这三个是 Agent 能力的守门指标。开源模型在这三项上得分与 Claude Opus 4 相当,但成本是另一回事:
每天输出 1000 万 token:
- Opus 4.6:约 250 美元/天
- MiniMax M2.7:约 12 美元/天
差了 20 倍。
延迟差距同样显著。GLM-5 在 Baseten 上平均延迟 0.65 秒、70 tokens/秒;Claude Opus 4.6 是 2.56 秒、34 tokens/秒。这个差距在做实时交互产品时不是工程能弥补的。
评测方法:四个指标
评测分 7 类:文件操作、工具调用、检索、对话、记忆、摘要、单元测试。每类都有成功断言(决定正确性)和效率断言(衡量路径质量)。
报告四个指标:
- Correctness:通过率,通过/总数。0.68 即 68% 的测试用例正确解决。
- Solve rate:准确率和速度的复合指标,每个测试的
expected_steps / wall_clock_seconds平均值。越高越好。 - Step ratio:
total_actual_steps / total_expected_steps。1.0 刚好,多了是低效,少了是超预期。 - Tool call ratio:同 Step ratio,但统计的是工具调用次数而非步数。
Step ratio 和 Tool call ratio 不影响测试是否通过,但能揭示模型到达答案的路径是否经济——一个用 2 步解决预期 5 步任务的模型,既正确又高效。
为什么这很重要
对于在生产环境部署 Agent 的开发者,开源模型现在提供的稳定性和可预测性,第一次让真实工作流变得真正可行。
理想状况下当然是用最强的前沿模型做所有任务,但两个现实约束让这不可行:成本,和延迟。闭源前沿模型在高吞吐场景下贵 8-10 倍,对需要快速响应的交互产品来说也太慢。
开源模型的 20 倍成本优势和 4 倍延迟优势,对于任何需要规模化部署 Agent 的团队,不是锦上添花,是基础设施层面的改变。
有意思的是,这篇文章的数据恰好验证了 OpenClaw 选择 MiniMax M2 作为默认模型的合理性——在 Agent 任务上,开源模型已经过了"能用"这条线,剩下的差异主要来自价格和延迟,而不是能力本身。对于需要规模化部署 Agent 应用的团队,这是一个值得认真对待的选项。