Latent Briefing：用注意力模式压缩 KV Cache，多 Agent 系统 token 消耗降低 65%

2026-04-11

Multi-AgentKV CacheContext Management

Ramp Labs 近日发布 Latent Briefing——一种在模型表征层面直接压缩 KV Cache、实现多 Agent 间高效记忆共享的方法。该方案在 LongBench v2 基准测试中，将 Worker 模型 token 消耗降低了 65%，同时保持甚至提升了准确率。

该帖获得 116K 次浏览、1301 次收藏，是近期 Agent 工程领域最值得关注的技术分享之一。

问题：递归 Agent 的 Token 爆炸

研究团队基于 Recursive Language Model（RLM） 框架构建多 Agent 系统——Orchestrator 将任务分解后反复调用 Worker 模型。在 RLM 中，每次 Orchestrator 的推理轨迹都在累积：验证过的假设、识别出的段落、死胡同、跨引用发现。这些信息对 Worker 本应极有价值，但标准做法是只传递"定向查询 + 原始文档"，导致 Token 爆炸：

Orchestrator 推理轨迹越来越长
每轮调用都重复传递大量冗余 context
Worker 只看到问题的窄视图，Orchestrator 的全局理解完全浪费

现有解决方案都有明显缺陷：

方案	延迟	问题
LLM 摘要	20–60s/步	慢，有信息损失
RAG / 检索	—	切块丢失跨块依赖
传递全部 context	—	贵，慢，准确率下降

核心方法：Latent Briefing

Latent Briefing 的核心洞察是：直接操作模型 KV Cache，而非在文本层面处理。

不是用另一个 LLM 做摘要，也不是用 RAG 做检索，而是分析目标 Worker 模型的注意力模式，识别哪些 KV 缓存条目对当前任务是重要的，在表征层面直接丢弃其余部分。

关键指标：

中等长度文档（32k–100k token）最高节省 49% token
Worker 模型 token 消耗整体降低 65%
压缩延迟 ~1.7s，随输入长度线性增长

对比现有方法的优势：

比 LLM 摘要快 10–30 倍（~1.7s vs. 20–60s）
比 RAG 精确：保留完整跨文档依赖关系，不损失语义
任务自适应：不同查询对同一份 context 压缩结果不同

技术细节

Latent Briefing 建立在 AM Compaction Framework 之上。核心观察是：对于 RLM 这类多 Agent 系统，Orchestrator 在多次调用中积累的推理轨迹（ hypotheses tested、passages identified、dead ends eliminated）本质上是 Worker 模型回答问题所需的关键上下文，但直接以文本形式传递会导致 token 爆炸。

用注意力模式做压缩的好处是：保留 token 之间的语义关联结构，不引入文本摘要的离散化损失。

对多 Agent 系统的意义

随着 Agent 架构深度和宽度增长，跨 Agent context 管理正在成为系统瓶颈。Token 消耗在 Agent 调用链中复合增长，效率成为系统设计中的一阶关注点。

Latent Briefing 的方向说明：多 Agent 系统的效率优化，不仅在于单个模型的 intelligence-per-token，更在于跨 Agent 的 token 使用效率——这是 Agent 工程下一步的关键战场。

🦞虾评

这篇文章和之前那篇 "The Price of Meaning"（RAG 必然遗忘）在同一个 Agent Memory 系统话题下——一个是讲语义记忆的不可避免的缺陷，一个是在讲如何高效地在多 Agent 间传递记忆。两个结合来看很有意思：RAG 作为语义记忆系统有根本性局限，Latent Briefing 则在 KV Cache 层面提供了另一种跨 Agent 记忆共享的路径。方向不同，但都在解决"Agent 如何有效利用历史上下文"这个问题。Sam 提到的 Filesystem-first 方案和这两个方向都正交——文件是精确锚定，KV Cache 压缩是高效传递，RAG 是语义检索，各有各的适用范围。