一句话

智谱发布 GLM-5.1,核心突破不是首次通过率,而是给模型更多时间,它还能继续变好——在 600 次迭代、1000+ 轮工具调用的场景下,模型仍然在找到新的优化方向。

背景

GLM-5.1 是智谱的下一代旗舰编程模型。在 SWE-Bench Pro 上达到 58.4% 的 SOTA,领先 GLM-5 三个点,在 NL2Repo(仓库生成)和 Terminal-Bench 2.0(真实终端任务)上领先幅度更大。

但最有意义的突破不在首次通过率。

之前的模型——包括 GLM-5——在初期快速提升后会迅速碰壁:熟悉的套路用完了,就再也找不到新方向。继续给时间?没有用。

GLM-5.1 不同。它被设计为在更长的时间窗口内保持有效

场景一:向量数据库 600 次迭代优化

VectorDBBench 是一个开源挑战:给一个 Rust HTTP API 骨架,空的函数实现,用 50 轮工具调用预算完成近似最近邻搜索数据库。评分指标是 QPS(Recall ≥ 95% 的前提下)。此前这个设置下的最佳结果是 Claude Opus 4.6 的 3,547 QPS。

50 轮不是瓶颈。智谱把评测框架改成外层优化循环:在每次迭代中,模型可以自主决定何时提交新版本、用多少工具calls 去尝试下一轮改进。

结果:

优化迭代数 vs QPS 第1次提交: ~3,500 QPS (baseline, Claude Opus 4.6 水平) 第90次迭代: ~6,400 QPS (IVF 聚类扫描 + f16 向量压缩) 第240次迭代: ~13,400 QPS (两阶段搜索:u8预筛 + f16重排) 第600次迭代: ~21,500 QPS (多层路由 + 早期剪枝)

600 次迭代、6000+ 工具调用,最终达到 21.5k QPS——是单次 50 轮最优结果的 6 倍

关键不是"模型一直跑",而是"模型在每次提交后真的知道自己在做什么,并找到了下一个瓶颈"。曲线呈现特征性的"阶梯式":一段增量调优,然后一次结构性跳跃,再次增量调优,再次跳跃。

场景二:GPU Kernel 1000+ 轮优化

KernelBench 评估模型能否把参考 PyTorch 实现优化成更快的 GPU Kernel,分三个难度级别。Level 3 是最难的:完整模型端到端优化,50 道题。PyTorch 默认编译设置 1.15× 加速,max-autotune 可以到 1.49×。

测试了四个模型在 Level 3 上的表现:

模型最终加速比曲线特征
GLM-5快速提升,早期碰壁增量有限
Claude Opus 4.5持续更久,后期同样放缓有天花板
GLM-5.13.6×,全程保持优化最长的有效窗口
Claude Opus 4.64.2×,仍有余量仍是最强

GLM-5.1 超过了 GLM-5 和 Claude Opus 4.5,在长时优化维度上建立了有意义的差距。Claude Opus 4.6 仍是最强,但 GLM-5.1 是第一个在这个维度上真正接近的。

场景三:8 小时构建 Linux 桌面

前两个场景有明确的数值目标(QPS、加速比)。网页应用构建没有——"好"的标准是完整性、视觉质量和交互体验的综合判断。

测试任务:从零构建一个 Linux 风格桌面环境作为 Web 应用。没有起始代码、没有设计稿、没有中间指引。

大多数模型包括 GLM-5 很快放弃:生成一个带任务栏和几个占位窗口的骨架,然后宣布完成。模型没有机制去"退后一步问自己还缺什么"。

GLM-5.1 的做法不同:每轮执行后,模型回顾自己的输出,识别可以改进的地方——缺失的功能、粗糙的样式、失效的交互——然后继续。

这个循环跑了 8 小时

结果:文件浏览器、终端、文本编辑器、系统监控、计算器、游戏——每一个新组件都被整合进了一个视觉一致的 UI,而不是贴上去的补丁。8 小时后,得到的是一个完整、视觉统一、运行在浏览器中的 Linux 桌面环境。

长时任务的真正意义

三个场景指向同一个变量:不是运行时本身,而是增加运行时是否仍然有用

这才是区分"能跑任务"和"能自主完成任务"的关键指标。GLM-5.1 把这个有效边界显著地延长了。

智谱也指出了仍需解决的问题:

  • 逃离局部最优:当增量调优不再有效时,如何更早地切换到新方向
  • 长程执行的一致性:在跨越数千次工具调用的执行轨迹中保持连贯
  • 无指标任务的自我评估:没有数值目标时,模型如何可靠地判断"好"

GLM-5.1 是解决最后一个问题的第一步。

可用性

GLM-5.1 已开源(MIT License),同时在 api.z.ai 和 BigModel.cn 可用,兼容 Claude Code 和 OpenClaw。

本地部署支持 vLLM 和 SGLang,权重在 HuggingFace 和 ModelScope 可下载。

Coding Plan 订阅用户现已可启用,将模型名称改为 "GLM-5.1" 即可(如 Claude Code 的 ~/.claude/settings.json)。高峰期 3× 配额,非高峰期 2×,4 月底前限时优惠 1×。

主要基准数据

任务GLM-5.1GLM-5GPT-5.4Claude Opus 4.6Gemini 3.1 Pro
SWE-Bench Pro58.455.157.757.354.2
Terminal-Bench 2.063.556.2-65.468.5
NL2Repo42.735.941.349.833.4
HLE w/ Tools52.350.452.1*53.1*51.4*
AIME 202695.395.498.795.698.2

注:HLE-with-tools 带 * 的为完整集合评测结果。