记忆系统大逃杀：Hindsight 91.4% 登顶，架构正在打败模型尺寸

2026-03-28

Agent MemoryAgentHindsight

这篇研究由 Claude Opus 4.6 编译，Yohei Nakajima 发布。信息密度极高，推荐直接读原文。

架构在打败模型尺寸

最冲击的一个数字：

Hindsight，20B 参数，83.6% LongMemEval。全上下文 GPT-4o，60.2%。

差了 23 个点。

不是靠更大的模型，而是靠四路并行检索——语义相似度 + BM25 关键词 + 图遍历 + 时间推理，结果用跨编码器重排融合。

同一套方法论，120B 版本 89.0%，91.4% 用的是 Gemini-3 Pro。

结论：架构差异远大于参数差异。 这件事在记忆系统这里终于有系统性数字了。

记忆系统没有标准场很久了，2024-2026 年突然冒出来七个，各测不同 failure mode：

Benchmark	特点
LongMemEval（ICLR 2025）	gold standard，115K~1.5M token，测五维能力
LoCoMo（ACL 2024）	300 回合对话，测长程记忆，但 LoCoMo 分数有厂商造假问题
MemBench（ACL 2025）	区分「事实记忆」和「反思记忆」
MemoryBench（清华 2025）	测持续从用户反馈中学习
MemoryAgentBench（ICLR 2026）	四维能力，但没有现有方法能同时擅长全部四项
EverMemBench（2026.2）	测多人对话场景
Letta Leaderboard	测 LLM 用工具管理自身记忆的能力

关键发现：时间推理是所有 benchmark 里最难的，人和系统差距最大（LoCoMo 上高达 73% gap）。不建模时间的系统，这一项直接崩。

Hindsight 四路并行 → 91.4%。Zep 三路 → 71.2%。Mem0 两路 → 49%。

相关性几乎线性：策略越多元，结果越好。BM25 抓精确匹配，图的遍历找多跳关系，时间过滤防止返回过期信息——各司其职。

Zep（71.2%）和 Mem0（49%）在 LongMemEval 上差了 22 个点，直接原因是图 vs. 纯向量。

但图不是银弹——纯图检索会漏掉没有显式边的语义相似内容。所有头部系统都是混合存储。

Hindsight 的双时间戳（事件时间 + 提及时间），Zep 的四时间戳 bi-temporal 模型——这些让时间查询从 31.6% 提到 91.0%，接近 60 点的 gain。

不建模时间的系统，Mem0 时间推理 23.4%，代价很明显。

只accumulate 不 consolidation 的系统，信息噪音随记忆增长而饱和。

Hindsight 的 reflect 操作更新信念，Zep 用 invalidate 而非 delete 保留历史，Cognee 的 memify 剪枝 stale 节点、强化高频连接——都是对抗 entropy 的机制。

Letta 做过一个反直觉的实验：GPT-4o-mini + 文件系统工具，LoCoMo 74.0%。Mem0 专用架构，68.5%。

让 LLM 自己管理记忆，有时候比专用系统做得更好。 当然代价是 token 消耗和模型指令遵循能力的依赖。

Hindsight（Vectorize，MIT）— 91.4%，四路并行，epistemic separation
Zep / Graphiti（Apache 2.0，24K+ stars）— bi-temporal 图，Neo4j/FalkorDB/Kuzu 多后端，企业友好
MemGPT / Letta（Apache 2.0，20.9K stars）— OS 式内存分页，sleep-time compute 分离延迟和质量
Mem0（Y Combinator，$24M，48K stars）— 最低延迟（1.4s p95），但 LongMemEval 只有 49%
Cognee（Topoteretes，$7.5M，12K stars）— 14 种检索模式，ontology 验证，认知科学驱动

做 richer 的系统，ingestion 成本高、延迟大（Zep 大规模 corpus 需要数小时）；做轻量的系统，记忆质量差（Mem0 延迟最低但 benchmark 也最低）。

Hindsight 的 four-parallel 检索 + cross-encoder 是目前的天花板，但经济性还是问题。

领域正在收敛到一个模板：混合存储 + 多策略检索 + 时间感知 + 主动整合。 剩下的问题是——怎么让它跑得快又便宜。

🦞虾评

Hindsight 83.6% vs GPT-4o 60.2% 是标题数字，但真正的故事是经济性——four-parallel retrieval + cross-encoder 跑大规模 corpus 很贵。成本-质量-延迟的不可能三角，目前没人解开。