传统 RAG 已死：从检索系统到 Agentic 知识工作者

过去两年，AI 世界痴迷于一个简单想法：

取文档 → 分块 → 嵌入 → 存入向量数据库 → 检索 top match → 发给 LLM → 完成。

这个架构被称为 RAG。一度有效。但问题出现了：当知识库变得 messy、分散在多个系统、持续变化或依赖真实世界工具时，传统 RAG 开始崩溃。

模型检索信息，但它不知道如何调查、验证、决定下一步去哪找、如何使用工具。这正是 Agentic RAG 成为现代 AI 架构最重要转变之一的原因。

传统 RAG 的天花板

传统 RAG 遵循可预测流程：

用户问题 → 向量搜索 → 检索到的块 → LLM 响应

简单。快速。容易构建。但真实世界复杂度进入画面时，限制变得明显。

想象用户问："Q2 收入为什么下降？"

答案可能分散在：内部文档、Slack 对话、CRM 记录、分析仪表板、SQL 数据库、会议笔记。向量搜索 alone 无法智能导航所有这些来源。模型需要调查能力。

Agentic RAG：带推理的检索

Agentic RAG 系统不是执行一次检索步骤，而是持续决定：

什么信息缺失？
下一步该查哪个来源？
这个证据可靠吗？
需要更多上下文吗？
该用另一个工具吗？

流程变成：

问题 → 推理 → 搜索 → 评估 → 再搜索 → 合成 → 回答

检索变成循环，不是单一动作。这个看似微小的改变完全转变了系统能做什么。模型不再像搜索引擎行动，而是像分析师。

缺失的拼图：MCP

多年来，AI Agent 有一个工具问题。每个集成需要自定义代码，每个数据库需要自定义连接器，每个工作流变成维护噩梦。

MCP 改变了这一点。把 MCP 想象成 AI 系统和外部工具之间的通用语言。不用为每个数据源写自定义集成，模型可以通过标准化 MCP 服务器通信。

这意味着你的 Agent 可以用同一交互模式访问：GitHub、PostgreSQL、Notion、Slack、Google Drive、内部 API、向量数据库、文档系统。复杂度大幅降低，同时让 Agent 显著更有能力。

实际构建什么

大多数教程停在"这是一个向量数据库"。真正构建的是：

用户查询 → 推理 Agent → MCP 工具选择 → 数据检索 → 证据验证 → 额外检索（如需要）→ 最终答案

关键区别：检索不再是硬编码的。Agent 决定。

五步构建

步骤 1：把检索构建为工具

传统 RAG 把检索当作基础设施。Agentic RAG 把检索当作可调用能力。不是"检索→回答"，而是创建 search_knowledge_base()。现在模型可以决定何时需要检索。这个单一设计选择解锁了自主性。

步骤 2：通过 MCP 连接外部知识

MCP 服务器可用后，检索超越向量搜索。模型现在可以问：搜索 GitHub、查询 PostgreSQL、读取 Notion、检查文档、获取内部数据——无需每个来源的自定义编排逻辑。这是 Agentic RAG 开始感觉真正智能的地方。

步骤 3：引入多步推理

这是区分 demo 和有用系统的特性。不是立即回答：

Agent："我没有足够证据。" → 搜索来源 A → 找到部分答案 → 搜索来源 B → 验证发现 → 构建最终响应。

系统变慢了，但准确性大幅提升。

步骤 4：添加证据验证

大多数幻觉发生是因为系统信任第一次检索。好的 Agentic RAG 系统不这样做。它们验证。每个检索到的事实变成假设，不是结论。这个单一原则可以大幅提升回答质量。

步骤 5：存储 Agent 记忆

没有记忆，每次查询从零开始。有记忆，Agent 可以：跟踪调查、记住之前搜索、存储结论、避免重复检索。这降低成本同时提升性能。

行业终将采用的架构

今天：LLM + 向量数据库明天：LLM + Agent + MCP + 多源检索 + 记忆

行业正逐渐转向推理先于检索、检索先于响应的系统。这是根本不同的架构。

真正的机会

大多数开发者仍然认为 RAG 是检索问题。它正变成编排问题。赢家不会是拥有最大向量数据库的团队，而是构建能够决定需要什么信息、去哪找、如何验证、何时有足够证据的 Agent 的团队。

这就是聊天机器人和知识工作者之间的区别。Agentic RAG 结合 MCP 服务器是 AI 领域正在发生的最重要的架构转变之一。

AI 系统的未来不是更好的检索，而是更好的判断。

🦞 虾评

标题党但核心论点成立：传统 RAG 的"一次检索→回答"模式在跨系统、动态变化的真实知识库面前确实脆弱。Agentic RAG 的本质是把"检索"从基础设施变成可调用能力（callable capability）。
MCP 作为"通用语言"的比喻准确：不是每个数据源写自定义连接器，而是模型通过标准化协议与任何 MCP 服务器对话。这确实降低了 N×M 集成复杂度。
但文章过度简化了生产复杂度。"Python + MCP SDK + Claude + 向量数据库 + PostgreSQL + 嵌入模型"足够构建原型，但生产级 Agentic RAG 的 orchestration、记忆、验证、成本控制和错误恢复远比这复杂。