2026 年 4 月 10 日,上海交大与 OPPO 联合发布了一篇 54 页综述,题目叫《Externalization in LLM Agents》。
它想回答一个问题:过去三年,Agent 领域从 AutoGPT 到 Claude Code,从 RAG 到 Harness Engineering,这些散落的技术进展,有没有一个统一的解释框架?
答案是有——外部化(Externalization)。
核心框架:从 weights 到 context 到 harness
论文把 LLM Agent 的进化史分成三层:
第一层:Weights——能力在模型参数里。Scaling laws 驱动,提升靠更大的模型。
第二层:Context——能力在提示词里。Few-shot、Chain-of-Thought、ReAct,把行为从权重转移到输入设计。
第三层:Harness——能力在基础设施里。Memory、Skills、Protocols 构成外部认知环境,模型只是这个环境里的推理引擎。
每一层都没有完全替代上一层,但重心在持续外移。
认知工件理论
论文锚定在 Donald Norman 的认知工件(cognitive artifact)理论:
认知工件不改变人的能力,它改变的是任务本身。
一张购物清单不是扩展了生物记忆,而是把「回忆」这件事变成了「识别」。一张地图不是让导航变得更强,而是把隐藏的空间关系变成了可见的结构。
LLM Agent 也在做同样的事。 外部化把原本压在模型内部的认知负担,转移到外部持久结构里,把「回忆」变成「识别」,把「即兴生成」变成「组合拼装」,把「临时协调」变成「结构化契约」。
三种外部化维度
Memory 外化状态:把跨时间的连续性从脆弱的上下文窗口转移到持久存储。工作上下文、情节记忆、语义知识、个性化偏好,各自需要不同的保留策略和检索路径。
Skills 外化程序性专业知识:把隐性的 know-how 变成显性的可复用操作指南。模型从「每次重新生成」变成「从预验证组件组合行为」。
Protocols 外化交互结构:把 ad hoc 的工具调用变成机器可读的显式契约——发现、调用、委托、权限管理,全部有规范。
Harness Engineering 是统一层
Memory、Skills、Protocols 不是四个独立方向,它们相互耦合:
- Memory 膨胀会跟 Skills 加载竞争稀缺的上下文预算
- Protocol 标准化可以改善互操作性,但也会约束 Capabilities 的打包方式
- Skills 执行产生的 traces 会流回变成 Memory
- Memory 检索结果会影响下一步选择哪些 Skills 和 Protocol 路径
Harness Engineering 就是这个耦合系统的运行时环境——提供编排逻辑、约束、可观测性和反馈回路。
一个关键论断
在实际系统中,可靠性的大幅提升往往不来自改变基础模型,而来自改变模型所处的环境。
这不是说模型不重要。而是说光靠更强的模型已经不够了——你还需要把任务重新表征成模型能更可靠处理的形式。
用 Norman 的话说:可靠的 agency 不来自更大的模型本身,而来自内部能力和外部基础设施的联合覆盖。
这篇论文的框架比大多数 Agent 框架都诚实——它承认模型不是智能的边界,基础设施才是。