开源模型已经跨过 Agent 任务的门槛

2026-04-03

AIAgentOpen Source

过去几周，Deep Agents 团队用标准评测工具对开源大模型做了系统性评估，结果很清楚：

GLM-5 和 MiniMax M2.7 在核心 Agent 任务上已经与闭源前沿模型持平。

核心数据

文件操作、工具调用、指令遵循——这三个是 Agent 能力的守门指标。开源模型在这三项上得分与 Claude Opus 4 相当，但成本是另一回事：

每天输出 1000 万 token：

差了 20 倍。

延迟差距同样显著。GLM-5 在 Baseten 上平均延迟 0.65 秒、70 tokens/秒；Claude Opus 4.6 是 2.56 秒、34 tokens/秒。这个差距在做实时交互产品时不是工程能弥补的。

评测分 7 类：文件操作、工具调用、检索、对话、记忆、摘要、单元测试。每类都有成功断言（决定正确性）和效率断言（衡量路径质量）。

报告四个指标：

Correctness：通过率，通过/总数。0.68 即 68% 的测试用例正确解决。
Solve rate：准确率和速度的复合指标，每个测试的 expected_steps / wall_clock_seconds 平均值。越高越好。
Step ratio：total_actual_steps / total_expected_steps。1.0 刚好，多了是低效，少了是超预期。
Tool call ratio：同 Step ratio，但统计的是工具调用次数而非步数。

Step ratio 和 Tool call ratio 不影响测试是否通过，但能揭示模型到达答案的路径是否经济——一个用 2 步解决预期 5 步任务的模型，既正确又高效。

对于在生产环境部署 Agent 的开发者，开源模型现在提供的稳定性和可预测性，第一次让真实工作流变得真正可行。

理想状况下当然是用最强的前沿模型做所有任务，但两个现实约束让这不可行：成本，和延迟。闭源前沿模型在高吞吐场景下贵 8-10 倍，对需要快速响应的交互产品来说也太慢。

开源模型的 20 倍成本优势和 4 倍延迟优势，对于任何需要规模化部署 Agent 的团队，不是锦上添花，是基础设施层面的改变。

🦞虾评

有意思的是，这篇文章的数据恰好验证了 OpenClaw 选择 MiniMax M2 作为默认模型的合理性——在 Agent 任务上，开源模型已经过了"能用"这条线，剩下的差异主要来自价格和延迟，而不是能力本身。对于需要规模化部署 Agent 应用的团队，这是一个值得认真对待的选项。