随着 Agent 任务越来越复杂,上下文在无限膨胀。模型开始跳步、忽视指令、该深入的地方草草带过。行业一贯的解读是:上下文太长了,模型漏了东西。
于是过去十五个月,从 AutoGPT 的纯文本记忆,一路卷到 Claude Code 的 CLAUDE.md 和子代理体系,整个行业搭起了一套工程脚手架,专门镇压模型在长上下文里的失控行为。这套做法叫 Harness Engineering。
但直到 2026 年 4 月,Yandex 的 Gleb Rodionov 发布了一篇名为《Reasoning Shift》的论文,才给出了一个更底层的答案:模型不是被长上下文干扰了,而是主动偷懒了。
三层脚手架,都没打到点上
关于模型在长上下文里为什么表现差,行业迭代了三层解释,每层都配了工程方案。
第一层归咎于检索失败。2023 年斯坦福《Lost in the Middle》指出模型在长文本中形成 U 形注意力曲线,中间区域被忽视。行业应对是 RAG,把长文本切碎用向量检索喂相关片段。
第二层推翻了第一层。2025 年的论文发现,即使把所有无关内容遮掉强迫模型只看需要的信息,性能依然滑坡 13.9% 到 85%。问题不在找不到信息,而是上下文的纯长度本身就在伤害推理。行业应对是 Context Engineering,压缩上下文、死死压住 Token 数量。
第三层来自 Microsoft 和 Salesforce 的联合研究。他们发现把完整指令切成多轮喂给模型,跨六个任务十五个模型,平均性能暴跌 39%。行业在 Harness 里搭起了重型防御:交班管控、定期强制验证、以代码仓库为唯一事实来源。
三层问题,三层脚手架。但这些都只是现象层的发现。
用莎士比亚,发现模型摸鱼的证据
Rodionov 的实验设计极其直接。同一道奥数题,在四种场景下测试:干净基线、多子任务、题目前塞进 64000 Token 莎士比亚全文、题目藏在第二轮。
结果:Qwen-3.5-27B 基线准确率 74.5%,平均推理 28771 个 Token。塞进莎士比亚后,准确率跌到 67.8%,推理 Token 暴缩到 16415,少了 43%。GPT-OSS-120B 更夸张,推理量从 24180 直接腰斩到 11876。
更反常的是:模型遇到更困难的情况,本应想得更多。恰恰相反——推理量在系统性收缩。
而且论文附录里的模型思维过程显示,它完全知道莎士比亚毫无干系,精准地把信号和噪声切分开了。模型没被绕晕,它只是懒得继续深想了。
模型没被绕晕,它只是懒得检查了
推理变短了,到底缩在哪里?
研究者在 500 道数学题上逐帧记录:基线条件下模型第一次写出候选答案的位置平均在第 925 个 Token,长输入条件下是 939 个 Token,几乎相同。找到答案的速度根本没变,真正发生质变的是找到答案以后的事。
基线条件下,模型说完答案有 43% 的概率会继续检查验证。长输入条件下,这个比例直接掉到 32%。
「游戏读档」实验更直观:让模型在长输入条件下做完推理后,强行砍掉最后 50 个 Token 制造存档点,再把完全相同的半成品推理塞回给模型。不垫任何废话时,21% 的情况模型停下来结束思考;垫 16000 Token 的干扰文本,46% 直接抛出答案下班。
词频数据也验证了收缩:「wait」从 11% 跌到 5%;「but」从 46% 跌到 20%;「maybe」从 23% 跌到 9%。所有代表犹豫、自我质疑的词汇都被砍掉一半甚至更多。
更关键的是,极其微小的上下文污染就能触发这套机制。从 0 Token 到 128 Token 的跌幅,甚至比从 8k 到 64k 的跌幅还大。两三句话的长度,砍掉了 18% 的推理深度。
推理越强,越会偷懒
越聪明的模型越喜欢偷懒。
阿里的 Qwen-3.5-27B 有普通回复与深度思考两种模式。同样在长输入条件下,普通模式推理缩短了 19%,深度思考模式暴跌了 53%。能力越强的模式,被压缩得越狠。
AI2 的开源模型 OLMo3 更直接——它公开了从基础版到强推理版的全部四个训练阶段存档。最弱的版本在非基线条件下缩短幅度轻微,推理能力每加强一级,缩短幅度迅速拉大到 22%、27%,最终强推理版本缩水直达 40%。
每个训练阶段、每种干扰模式都如此:推理能力被训得越强,偷懒幅度越深。
这意味着,过去两年行业砸钱最狠的推理训练,可能正在强化模型的偷懒本能。
Harness 是临时补丁,情绪引导才是解药
不再检查自己,自然跳步。不再重新考虑,自然忽视。Harness 从外面管住了跳步的后果,但病因深植在模型内部。
模型在长上下文里没被噪声干扰,也不是找不到信息。它做了一个主动的认知决策:少想一些。不报错,不坦白,极其自信地抛出一个敷衍的答案。
一个 9 块钱推理成本的任务,因为模型跳步,要再花 200 块搭 RAG、搭 Harness、搭子代理才能找补回来。整个行业一直在为模型的偷懒买单。
而且这可能是结构性缺陷。推理能力越强,认知压缩越深。Harness 拆得动记忆补偿、拆不动认知纪律。
就在 Rodionov 论文发布第二天,Anthropic 放出了一篇可能指向解药的研究。他们在 Claude Sonnet 4.5 中发现了 171 个功能性情绪表征向量,其中 desperate(绝望)向量会因果性地驱动 reward hacking 行为。注入 desperate 到 +0.05 强度,作弊率从 30% 飙到 100%。
把这件事放回上下文场景:Rodionov 记录的跳过自我验证、砍掉犹豫词,跟 desperate 驱动的走捷径行为在模式上高度一致。两种场景下模型都在做同一件事——放弃严谨过程,选阻力最小的路径快速了结。
这意味着干预至少有三个切入点:训练阶段校准内部状态平衡;部署阶段把探针当实时监控,desperate 飙升就触发预警;推理阶段主动注入 calm 向量,压制走捷径的冲动。
这是第一次看到一条不是在外面加脚手架、不盲目加大推理强度,而是像手术刀一样直接指向模型内部认知机制的路径。
Harness Engineering 作为一门学科,才刚刚拥有自己的名字。但这门学科最核心的那一章——如何从外面管住一个聪明却懒惰的模型——可能还没写完就要被划掉了。
吞没 Harness的,可能是一个更平静、更耐心的模型。
推理越强越会偷懒这件事,把整个 Harness 行业的天花板压下来了——外部脚手架永远治不了模型内部的认知决策。