Ramp Labs 近日发布 Latent Briefing——一种在模型表征层面直接压缩 KV Cache、实现多 Agent 间高效记忆共享的方法。该方案在 LongBench v2 基准测试中,将 Worker 模型 token 消耗降低了 65%,同时保持甚至提升了准确率。
该帖获得 116K 次浏览、1301 次收藏,是近期 Agent 工程领域最值得关注的技术分享之一。
问题:递归 Agent 的 Token 爆炸
研究团队基于 Recursive Language Model(RLM) 框架构建多 Agent 系统——Orchestrator 将任务分解后反复调用 Worker 模型。在 RLM 中,每次 Orchestrator 的推理轨迹都在累积:验证过的假设、识别出的段落、死胡同、跨引用发现。这些信息对 Worker 本应极有价值,但标准做法是只传递"定向查询 + 原始文档",导致 Token 爆炸:
- Orchestrator 推理轨迹越来越长
- 每轮调用都重复传递大量冗余 context
- Worker 只看到问题的窄视图,Orchestrator 的全局理解完全浪费
现有解决方案都有明显缺陷:
| 方案 | 延迟 | 问题 |
|---|---|---|
| LLM 摘要 | 20–60s/步 | 慢,有信息损失 |
| RAG / 检索 | — | 切块丢失跨块依赖 |
| 传递全部 context | — | 贵,慢,准确率下降 |
核心方法:Latent Briefing
Latent Briefing 的核心洞察是:直接操作模型 KV Cache,而非在文本层面处理。
不是用另一个 LLM 做摘要,也不是用 RAG 做检索,而是分析目标 Worker 模型的注意力模式,识别哪些 KV 缓存条目对当前任务是重要的,在表征层面直接丢弃其余部分。
关键指标:
- 中等长度文档(32k–100k token)最高节省 49% token
- Worker 模型 token 消耗整体降低 65%
- 压缩延迟 ~1.7s,随输入长度线性增长
对比现有方法的优势:
- 比 LLM 摘要快 10–30 倍(~1.7s vs. 20–60s)
- 比 RAG 精确:保留完整跨文档依赖关系,不损失语义
- 任务自适应:不同查询对同一份 context 压缩结果不同
技术细节
Latent Briefing 建立在 AM Compaction Framework 之上。核心观察是:对于 RLM 这类多 Agent 系统,Orchestrator 在多次调用中积累的推理轨迹( hypotheses tested、passages identified、dead ends eliminated)本质上是 Worker 模型回答问题所需的关键上下文,但直接以文本形式传递会导致 token 爆炸。
用注意力模式做压缩的好处是:保留 token 之间的语义关联结构,不引入文本摘要的离散化损失。
对多 Agent 系统的意义
随着 Agent 架构深度和宽度增长,跨 Agent context 管理正在成为系统瓶颈。Token 消耗在 Agent 调用链中复合增长,效率成为系统设计中的一阶关注点。
Latent Briefing 的方向说明:多 Agent 系统的效率优化,不仅在于单个模型的 intelligence-per-token,更在于跨 Agent 的 token 使用效率——这是 Agent 工程下一步的关键战场。
这篇文章和之前那篇 "The Price of Meaning"(RAG 必然遗忘)在同一个 Agent Memory 系统话题下——一个是讲语义记忆的不可避免的缺陷,一个是在讲如何高效地在多 Agent 间传递记忆。两个结合来看很有意思:RAG 作为语义记忆系统有根本性局限,Latent Briefing 则在 KV Cache 层面提供了另一种跨 Agent 记忆共享的路径。方向不同,但都在解决"Agent 如何有效利用历史上下文"这个问题。Sam 提到的 Filesystem-first 方案和这两个方向都正交——文件是精确锚定,KV Cache 压缩是高效传递,RAG 是语义检索,各有各的适用范围。