Alex Zhang(@a1zhang)、Zed Li(@zli11010)、Omar Khattab(@lateinteraction,ColBERTv2/Sparse Reranking 作者)联合在 X 上提出了「Mismanaged Geniuses Hypothesis(MGH)」,获得 13.8 万次浏览、759 次转发。
核心观察:LM 是天才,但被管得很差
前沿语言模型在 IMO、IOI 等最难的考试上超越最聪明的人类,编程能力超人类,却在看似「简单」的长周期、迭代推理任务上挣扎。
MGH 认为:这不是 LM 的固有限制,而是我们使用它们的方式 suboptimal。
MGH 假设
现有前沿语言模型因个别 LM 调用 sub-optimal 使用方式而严重未被充分利用。下一跳不会来自继续 scale 现有 LM,而是来自让语言模型「管理」自己——即原生分解任务并对分解结果执行操作。
![Figure 1: MGH 框架图]
当前大多数 Agent scaffold 是人类工程化的、任务特定的分解策略,依赖人类直觉来决定如何组合个别 LM 调用解决更大问题。这些系统通常脆弱——不同模型、不同问题需要不同的 scaffold,导致前沿 LM 被严重低估。
关键反问:前沿模型真的无法以人类水平玩某些视频游戏吗?还是只是我们没有为它构建足够好的 scaffold?
核心洞察:分解任务比直接解决任务容易得多
MGH 的关键实验(Figure 2):
MRCRv2 1M context with 8 needles(常见长上下文 benchmark):
- RLM(Qwen3-4B-Instruct) 在原始设置下:接近 0% 解决率
- 在 32k context、1 needle 的简单版本上做 RL 训练后:100% 解决
这证明:
- 分解任务比直接解决任务容易得多
- RLM 能在小规模上学习正确分解模式,然后泛化到大规模
composition 是解决 OOD 问题的关键
MGH 对 OOD(分布外)问题的解释:
在 LM 的「in-distribution」边界内,已经存在一个能解决 OOD 问题的强大系统——通过将任务分解为 LM 能解决的子任务,且「分解任务」本身对 LM 来说也是一个 in-distribution 任务。
直接学习组合 LM 的操作符,比继续 scale 当前 LM 是通往 OOD 任务显著更高效的策略。
两个研究方向
1. 定义「分解」
分解空间的大小对可解决问题的深度有指数级影响。
- Tool-call 风格的 subagent 不允许根 LM 将上下文分解为任意多个 chunk,限制了 scaling
- RLM 用 for loop 等代码执行扩展了分解空间,突然使系统能处理接近无限的上下文
- 类似的简单扩展经过递归效应放大,可能解锁:接近无限的长周期任务泛化、通过接近无限的上下文学习实现自改进
2. 训练和 scale 组合能力
正确的分解很可能已经在 LM 能生成的内容分布内——LM 能写正确的 composition,但不总是原生这样做。通过 RL 训练,可以引导模型 bootstrapping 出正确的分解行为。
对 Agent 工程师的含义
Claude Code、OpenClaw、Hermes Agent 这类 orchestrator-subagent 系统表明:LM 完全有能力管理其他 LM 解决更长周期的任务。
递归语言模型(RLMs)进一步扩展了这个方向:用代码执行+递归子调用/工具作为函数,实现了完全递归的任务分解。
LM 已经强大到荒谬的程度——长周期 solver 或自改进系统的瓶颈看起来有点蠢了。如果 MGH 为真,剩下的问题就是如何管理这些天才(当然,加上护栏)。
MGH 对 Agent 工程师来说是一篇框架级别的论文。核心洞察「分解任务比直接解决任务容易得多」和 Sam 之前提到的 Auto Research loop 思路完全吻合——不是让一个模型直接解决难题,而是让它学会正确地分解问题再逐个解决。Omar Khattab 的参与让这篇论文的分量更重——他是信息检索领域的重要学者,从这个角度看 RLM 的「分解空间」概念会很有意思:改变分解的表达方式(如从 API tool-call 变成 for loop)会带来指数级的效果差异,而不是线性改进。另外值得注意:Qwen3-4B 通过在小规模任务上的 RL 训练就能泛化到 1M context,这个 evidence 很直接地挑战了「需要更大模型」的主流思路。对 Sam 的 AgentBase 项目来说,MGH 暗示 Phase 1 的核心不是选更强的模型,而是设计一个能充分释放现有模型能力的 scaffold——这个方向和 Sam 之前「基于开源框架做行业增强」的思路是一致的。