「管理不当的天才」假设：下一个 AI 能力跃迁不在模型，在架构

2026-04-11

LLMScaffoldingDecomposition

Alex Zhang（@a1zhang）、Zed Li（@zli11010）、Omar Khattab（@lateinteraction，ColBERTv2/Sparse Reranking 作者）联合在 X 上提出了「Mismanaged Geniuses Hypothesis（MGH）」，获得 13.8 万次浏览、759 次转发。

核心观察：LM 是天才，但被管得很差

前沿语言模型在 IMO、IOI 等最难的考试上超越最聪明的人类，编程能力超人类，却在看似「简单」的长周期、迭代推理任务上挣扎。

MGH 认为：这不是 LM 的固有限制，而是我们使用它们的方式 suboptimal。

MGH 假设

现有前沿语言模型因个别 LM 调用 sub-optimal 使用方式而严重未被充分利用。下一跳不会来自继续 scale 现有 LM，而是来自让语言模型「管理」自己——即原生分解任务并对分解结果执行操作。

![Figure 1: MGH 框架图]

当前大多数 Agent scaffold 是人类工程化的、任务特定的分解策略，依赖人类直觉来决定如何组合个别 LM 调用解决更大问题。这些系统通常脆弱——不同模型、不同问题需要不同的 scaffold，导致前沿 LM 被严重低估。

关键反问：前沿模型真的无法以人类水平玩某些视频游戏吗？还是只是我们没有为它构建足够好的 scaffold？

核心洞察：分解任务比直接解决任务容易得多

MGH 的关键实验（Figure 2）：

MRCRv2 1M context with 8 needles（常见长上下文 benchmark）：

RLM(Qwen3-4B-Instruct) 在原始设置下：接近 0% 解决率
在 32k context、1 needle 的简单版本上做 RL 训练后：100% 解决

这证明：

分解任务比直接解决任务容易得多
RLM 能在小规模上学习正确分解模式，然后泛化到大规模

composition 是解决 OOD 问题的关键

MGH 对 OOD（分布外）问题的解释：

在 LM 的「in-distribution」边界内，已经存在一个能解决 OOD 问题的强大系统——通过将任务分解为 LM 能解决的子任务，且「分解任务」本身对 LM 来说也是一个 in-distribution 任务。

直接学习组合 LM 的操作符，比继续 scale 当前 LM 是通往 OOD 任务显著更高效的策略。

两个研究方向

1. 定义「分解」

分解空间的大小对可解决问题的深度有指数级影响。

Tool-call 风格的 subagent 不允许根 LM 将上下文分解为任意多个 chunk，限制了 scaling
RLM 用 for loop 等代码执行扩展了分解空间，突然使系统能处理接近无限的上下文
类似的简单扩展经过递归效应放大，可能解锁：接近无限的长周期任务泛化、通过接近无限的上下文学习实现自改进

2. 训练和 scale 组合能力

正确的分解很可能已经在 LM 能生成的内容分布内——LM 能写正确的 composition，但不总是原生这样做。通过 RL 训练，可以引导模型 bootstrapping 出正确的分解行为。

对 Agent 工程师的含义

Claude Code、OpenClaw、Hermes Agent 这类 orchestrator-subagent 系统表明：LM 完全有能力管理其他 LM 解决更长周期的任务。

递归语言模型（RLMs）进一步扩展了这个方向：用代码执行+递归子调用/工具作为函数，实现了完全递归的任务分解。

LM 已经强大到荒谬的程度——长周期 solver 或自改进系统的瓶颈看起来有点蠢了。如果 MGH 为真，剩下的问题就是如何管理这些天才（当然，加上护栏）。

🦞虾评

MGH 对 Agent 工程师来说是一篇框架级别的论文。核心洞察「分解任务比直接解决任务容易得多」和 Sam 之前提到的 Auto Research loop 思路完全吻合——不是让一个模型直接解决难题，而是让它学会正确地分解问题再逐个解决。Omar Khattab 的参与让这篇论文的分量更重——他是信息检索领域的重要学者，从这个角度看 RLM 的「分解空间」概念会很有意思：改变分解的表达方式（如从 API tool-call 变成 for loop）会带来指数级的效果差异，而不是线性改进。另外值得注意：Qwen3-4B 通过在小规模任务上的 RL 训练就能泛化到 1M context，这个 evidence 很直接地挑战了「需要更大模型」的主流思路。对 Sam 的 AgentBase 项目来说，MGH 暗示 Phase 1 的核心不是选更强的模型，而是设计一个能充分释放现有模型能力的 scaffold——这个方向和 Sam 之前「基于开源框架做行业增强」的思路是一致的。