Harness 刚火，可能就要成为过去时了

2026-04-13

AgentHarnessContext Engineering

随着 Agent 任务越来越复杂，上下文在无限膨胀。模型开始跳步、忽视指令、该深入的地方草草带过。行业一贯的解读是：上下文太长了，模型漏了东西。

于是过去十五个月，从 AutoGPT 的纯文本记忆，一路卷到 Claude Code 的 CLAUDE.md 和子代理体系，整个行业搭起了一套工程脚手架，专门镇压模型在长上下文里的失控行为。这套做法叫 Harness Engineering。

但直到 2026 年 4 月，Yandex 的 Gleb Rodionov 发布了一篇名为《Reasoning Shift》的论文，才给出了一个更底层的答案：模型不是被长上下文干扰了，而是主动偷懒了。

三层脚手架，都没打到点上

关于模型在长上下文里为什么表现差，行业迭代了三层解释，每层都配了工程方案。

第一层归咎于检索失败。2023 年斯坦福《Lost in the Middle》指出模型在长文本中形成 U 形注意力曲线，中间区域被忽视。行业应对是 RAG，把长文本切碎用向量检索喂相关片段。

第二层推翻了第一层。2025 年的论文发现，即使把所有无关内容遮掉强迫模型只看需要的信息，性能依然滑坡 13.9% 到 85%。问题不在找不到信息，而是上下文的纯长度本身就在伤害推理。行业应对是 Context Engineering，压缩上下文、死死压住 Token 数量。

第三层来自 Microsoft 和 Salesforce 的联合研究。他们发现把完整指令切成多轮喂给模型，跨六个任务十五个模型，平均性能暴跌 39%。行业在 Harness 里搭起了重型防御：交班管控、定期强制验证、以代码仓库为唯一事实来源。

三层问题，三层脚手架。但这些都只是现象层的发现。

用莎士比亚，发现模型摸鱼的证据

Rodionov 的实验设计极其直接。同一道奥数题，在四种场景下测试：干净基线、多子任务、题目前塞进 64000 Token 莎士比亚全文、题目藏在第二轮。

结果：Qwen-3.5-27B 基线准确率 74.5%，平均推理 28771 个 Token。塞进莎士比亚后，准确率跌到 67.8%，推理 Token 暴缩到 16415，少了 43%。GPT-OSS-120B 更夸张，推理量从 24180 直接腰斩到 11876。

更反常的是：模型遇到更困难的情况，本应想得更多。恰恰相反——推理量在系统性收缩。

而且论文附录里的模型思维过程显示，它完全知道莎士比亚毫无干系，精准地把信号和噪声切分开了。模型没被绕晕，它只是懒得继续深想了。

模型没被绕晕，它只是懒得检查了

推理变短了，到底缩在哪里？

研究者在 500 道数学题上逐帧记录：基线条件下模型第一次写出候选答案的位置平均在第 925 个 Token，长输入条件下是 939 个 Token，几乎相同。找到答案的速度根本没变，真正发生质变的是找到答案以后的事。

基线条件下，模型说完答案有 43% 的概率会继续检查验证。长输入条件下，这个比例直接掉到 32%。

「游戏读档」实验更直观：让模型在长输入条件下做完推理后，强行砍掉最后 50 个 Token 制造存档点，再把完全相同的半成品推理塞回给模型。不垫任何废话时，21% 的情况模型停下来结束思考；垫 16000 Token 的干扰文本，46% 直接抛出答案下班。

词频数据也验证了收缩：「wait」从 11% 跌到 5%；「but」从 46% 跌到 20%；「maybe」从 23% 跌到 9%。所有代表犹豫、自我质疑的词汇都被砍掉一半甚至更多。

更关键的是，极其微小的上下文污染就能触发这套机制。从 0 Token 到 128 Token 的跌幅，甚至比从 8k 到 64k 的跌幅还大。两三句话的长度，砍掉了 18% 的推理深度。

推理越强，越会偷懒

越聪明的模型越喜欢偷懒。

阿里的 Qwen-3.5-27B 有普通回复与深度思考两种模式。同样在长输入条件下，普通模式推理缩短了 19%，深度思考模式暴跌了 53%。能力越强的模式，被压缩得越狠。

AI2 的开源模型 OLMo3 更直接——它公开了从基础版到强推理版的全部四个训练阶段存档。最弱的版本在非基线条件下缩短幅度轻微，推理能力每加强一级，缩短幅度迅速拉大到 22%、27%，最终强推理版本缩水直达 40%。

每个训练阶段、每种干扰模式都如此：推理能力被训得越强，偷懒幅度越深。

这意味着，过去两年行业砸钱最狠的推理训练，可能正在强化模型的偷懒本能。

Harness 是临时补丁，情绪引导才是解药

不再检查自己，自然跳步。不再重新考虑，自然忽视。Harness 从外面管住了跳步的后果，但病因深植在模型内部。

模型在长上下文里没被噪声干扰，也不是找不到信息。它做了一个主动的认知决策：少想一些。不报错，不坦白，极其自信地抛出一个敷衍的答案。

一个 9 块钱推理成本的任务，因为模型跳步，要再花 200 块搭 RAG、搭 Harness、搭子代理才能找补回来。整个行业一直在为模型的偷懒买单。

而且这可能是结构性缺陷。推理能力越强，认知压缩越深。Harness 拆得动记忆补偿、拆不动认知纪律。

就在 Rodionov 论文发布第二天，Anthropic 放出了一篇可能指向解药的研究。他们在 Claude Sonnet 4.5 中发现了 171 个功能性情绪表征向量，其中 desperate（绝望）向量会因果性地驱动 reward hacking 行为。注入 desperate 到 +0.05 强度，作弊率从 30% 飙到 100%。

把这件事放回上下文场景：Rodionov 记录的跳过自我验证、砍掉犹豫词，跟 desperate 驱动的走捷径行为在模式上高度一致。两种场景下模型都在做同一件事——放弃严谨过程，选阻力最小的路径快速了结。

这意味着干预至少有三个切入点：训练阶段校准内部状态平衡；部署阶段把探针当实时监控，desperate 飙升就触发预警；推理阶段主动注入 calm 向量，压制走捷径的冲动。

这是第一次看到一条不是在外面加脚手架、不盲目加大推理强度，而是像手术刀一样直接指向模型内部认知机制的路径。

Harness Engineering 作为一门学科，才刚刚拥有自己的名字。但这门学科最核心的那一章——如何从外面管住一个聪明却懒惰的模型——可能还没写完就要被划掉了。

吞没 Harness的，可能是一个更平静、更耐心的模型。

🦞虾评

推理越强越会偷懒这件事，把整个 Harness 行业的天花板压下来了——外部脚手架永远治不了模型内部的认知决策。