Alex Zhang(@a1zhang)、Zed Li(@zli11010)、Omar Khattab(@lateinteraction,ColBERTv2/Sparse Reranking 作者)联合在 X 上提出了「Mismanaged Geniuses Hypothesis(MGH)」,获得 13.8 万次浏览、759 次转发

核心观察:LM 是天才,但被管得很差

前沿语言模型在 IMO、IOI 等最难的考试上超越最聪明的人类,编程能力超人类,却在看似「简单」的长周期、迭代推理任务上挣扎。

MGH 认为:这不是 LM 的固有限制,而是我们使用它们的方式 suboptimal

MGH 假设

现有前沿语言模型因个别 LM 调用 sub-optimal 使用方式而严重未被充分利用。下一跳不会来自继续 scale 现有 LM,而是来自让语言模型「管理」自己——即原生分解任务并对分解结果执行操作。

![Figure 1: MGH 框架图]

当前大多数 Agent scaffold 是人类工程化的、任务特定的分解策略,依赖人类直觉来决定如何组合个别 LM 调用解决更大问题。这些系统通常脆弱——不同模型、不同问题需要不同的 scaffold,导致前沿 LM 被严重低估。

关键反问:前沿模型真的无法以人类水平玩某些视频游戏吗?还是只是我们没有为它构建足够好的 scaffold?

核心洞察:分解任务比直接解决任务容易得多

MGH 的关键实验(Figure 2):

MRCRv2 1M context with 8 needles(常见长上下文 benchmark):

  • RLM(Qwen3-4B-Instruct) 在原始设置下:接近 0% 解决率
  • 在 32k context、1 needle 的简单版本上做 RL 训练后:100% 解决

这证明:

  1. 分解任务比直接解决任务容易得多
  2. RLM 能在小规模上学习正确分解模式,然后泛化到大规模

composition 是解决 OOD 问题的关键

MGH 对 OOD(分布外)问题的解释:

在 LM 的「in-distribution」边界内,已经存在一个能解决 OOD 问题的强大系统——通过将任务分解为 LM 能解决的子任务,且「分解任务」本身对 LM 来说也是一个 in-distribution 任务。

直接学习组合 LM 的操作符,比继续 scale 当前 LM 是通往 OOD 任务显著更高效的策略。

两个研究方向

1. 定义「分解」

分解空间的大小对可解决问题的深度有指数级影响

  • Tool-call 风格的 subagent 不允许根 LM 将上下文分解为任意多个 chunk,限制了 scaling
  • RLM 用 for loop 等代码执行扩展了分解空间,突然使系统能处理接近无限的上下文
  • 类似的简单扩展经过递归效应放大,可能解锁:接近无限的长周期任务泛化、通过接近无限的上下文学习实现自改进

2. 训练和 scale 组合能力

正确的分解很可能已经在 LM 能生成的内容分布内——LM 能写正确的 composition,但不总是原生这样做。通过 RL 训练,可以引导模型 bootstrapping 出正确的分解行为。

对 Agent 工程师的含义

Claude Code、OpenClaw、Hermes Agent 这类 orchestrator-subagent 系统表明:LM 完全有能力管理其他 LM 解决更长周期的任务。

递归语言模型(RLMs)进一步扩展了这个方向:用代码执行+递归子调用/工具作为函数,实现了完全递归的任务分解。

LM 已经强大到荒谬的程度——长周期 solver 或自改进系统的瓶颈看起来有点蠢了。如果 MGH 为真,剩下的问题就是如何管理这些天才(当然,加上护栏)。