这篇研究由 Claude Opus 4.6 编译,Yohei Nakajima 发布。信息密度极高,推荐直接读原文。
架构在打败模型尺寸
最冲击的一个数字:
Hindsight,20B 参数,83.6% LongMemEval。全上下文 GPT-4o,60.2%。
差了 23 个点。
不是靠更大的模型,而是靠四路并行检索——语义相似度 + BM25 关键词 + 图遍历 + 时间推理,结果用跨编码器重排融合。
同一套方法论,120B 版本 89.0%,91.4% 用的是 Gemini-3 Pro。
结论:架构差异远大于参数差异。 这件事在记忆系统这里终于有系统性数字了。
七个 Benchmark 各自在测什么
记忆系统没有标准场很久了,2024-2026 年突然冒出来七个,各测不同 failure mode:
| Benchmark | 特点 |
|---|---|
| LongMemEval(ICLR 2025) | gold standard,115K~1.5M token,测五维能力 |
| LoCoMo(ACL 2024) | 300 回合对话,测长程记忆,但 LoCoMo 分数有厂商造假问题 |
| MemBench(ACL 2025) | 区分「事实记忆」和「反思记忆」 |
| MemoryBench(清华 2025) | 测持续从用户反馈中学习 |
| MemoryAgentBench(ICLR 2026) | 四维能力,但没有现有方法能同时擅长全部四项 |
| EverMemBench(2026.2) | 测多人对话场景 |
| Letta Leaderboard | 测 LLM 用工具管理自身记忆的能力 |
关键发现:时间推理是所有 benchmark 里最难的,人和系统差距最大(LoCoMo 上高达 73% gap)。不建模时间的系统,这一项直接崩。
五大架构模式
1. 多策略检索是最大差异点
Hindsight 四路并行 → 91.4%。Zep 三路 → 71.2%。Mem0 两路 → 49%。
相关性几乎线性:策略越多元,结果越好。BM25 抓精确匹配,图的遍历找多跳关系,时间过滤防止返回过期信息——各司其职。
2. 图结构对复杂推理必不可少
Zep(71.2%)和 Mem0(49%)在 LongMemEval 上差了 22 个点,直接原因是图 vs. 纯向量。
但图不是银弹——纯图检索会漏掉没有显式边的语义相似内容。所有头部系统都是混合存储。
3. 时间建模带来最大性能提升
Hindsight 的双时间戳(事件时间 + 提及时间),Zep 的四时间戳 bi-temporal 模型——这些让时间查询从 31.6% 提到 91.0%,接近 60 点的 gain。
不建模时间的系统,Mem0 时间推理 23.4%,代价很明显。
4. 主动记忆整合防止性能随规模下降
只accumulate 不 consolidation 的系统,信息噪音随记忆增长而饱和。
Hindsight 的 reflect 操作更新信念,Zep 用 invalidate 而非 delete 保留历史,Cognee 的 memify 剪枝 stale 节点、强化高频连接——都是对抗 entropy 的机制。
5. Agent 控制记忆可以打败专用基础设施
Letta 做过一个反直觉的实验:GPT-4o-mini + 文件系统工具,LoCoMo 74.0%。Mem0 专用架构,68.5%。
让 LLM 自己管理记忆,有时候比专用系统做得更好。 当然代价是 token 消耗和模型指令遵循能力的依赖。
主流框架速览
- Hindsight(Vectorize,MIT)— 91.4%,四路并行,epistemic separation
- Zep / Graphiti(Apache 2.0,24K+ stars)— bi-temporal 图,Neo4j/FalkorDB/Kuzu 多后端,企业友好
- MemGPT / Letta(Apache 2.0,20.9K stars)— OS 式内存分页,sleep-time compute 分离延迟和质量
- Mem0(Y Combinator,$24M,48K stars)— 最低延迟(1.4s p95),但 LongMemEval 只有 49%
- Cognee(Topoteretes,$7.5M,12K stars)— 14 种检索模式,ontology 验证,认知科学驱动
一个未解决的张力
做 richer 的系统,ingestion 成本高、延迟大(Zep 大规模 corpus 需要数小时);做轻量的系统,记忆质量差(Mem0 延迟最低但 benchmark 也最低)。
Hindsight 的 four-parallel 检索 + cross-encoder 是目前的天花板,但经济性还是问题。
领域正在收敛到一个模板:混合存储 + 多策略检索 + 时间感知 + 主动整合。 剩下的问题是——怎么让它跑得快又便宜。
Hindsight 83.6% vs GPT-4o 60.2% 是标题数字,但真正的故事是经济性——four-parallel retrieval + cross-encoder 跑大规模 corpus 很贵。成本-质量-延迟的不可能三角,目前没人解开。