传统 RAG 已死:从检索系统到 Agentic 知识工作者
过去两年,AI 世界痴迷于一个简单想法:
取文档 → 分块 → 嵌入 → 存入向量数据库 → 检索 top match → 发给 LLM → 完成。
这个架构被称为 RAG。一度有效。但问题出现了:当知识库变得 messy、分散在多个系统、持续变化或依赖真实世界工具时,传统 RAG 开始崩溃。
模型检索信息,但它不知道如何调查、验证、决定下一步去哪找、如何使用工具。这正是 Agentic RAG 成为现代 AI 架构最重要转变之一的原因。
传统 RAG 的天花板
传统 RAG 遵循可预测流程:
用户问题 → 向量搜索 → 检索到的块 → LLM 响应
简单。快速。容易构建。但真实世界复杂度进入画面时,限制变得明显。
想象用户问:"Q2 收入为什么下降?"
答案可能分散在:内部文档、Slack 对话、CRM 记录、分析仪表板、SQL 数据库、会议笔记。向量搜索 alone 无法智能导航所有这些来源。模型需要调查能力。
Agentic RAG:带推理的检索
Agentic RAG 系统不是执行一次检索步骤,而是持续决定:
- 什么信息缺失?
- 下一步该查哪个来源?
- 这个证据可靠吗?
- 需要更多上下文吗?
- 该用另一个工具吗?
流程变成:
问题 → 推理 → 搜索 → 评估 → 再搜索 → 合成 → 回答
检索变成循环,不是单一动作。这个看似微小的改变完全转变了系统能做什么。模型不再像搜索引擎行动,而是像分析师。
缺失的拼图:MCP
多年来,AI Agent 有一个工具问题。每个集成需要自定义代码,每个数据库需要自定义连接器,每个工作流变成维护噩梦。
MCP 改变了这一点。把 MCP 想象成 AI 系统和外部工具之间的通用语言。不用为每个数据源写自定义集成,模型可以通过标准化 MCP 服务器通信。
这意味着你的 Agent 可以用同一交互模式访问:GitHub、PostgreSQL、Notion、Slack、Google Drive、内部 API、向量数据库、文档系统。复杂度大幅降低,同时让 Agent 显著更有能力。
实际构建什么
大多数教程停在"这是一个向量数据库"。真正构建的是:
用户查询 → 推理 Agent → MCP 工具选择 → 数据检索 → 证据验证 → 额外检索(如需要)→ 最终答案
关键区别:检索不再是硬编码的。Agent 决定。
五步构建
步骤 1:把检索构建为工具
传统 RAG 把检索当作基础设施。Agentic RAG 把检索当作可调用能力。不是"检索→回答",而是创建 search_knowledge_base()。现在模型可以决定何时需要检索。这个单一设计选择解锁了自主性。
步骤 2:通过 MCP 连接外部知识
MCP 服务器可用后,检索超越向量搜索。模型现在可以问:搜索 GitHub、查询 PostgreSQL、读取 Notion、检查文档、获取内部数据——无需每个来源的自定义编排逻辑。这是 Agentic RAG 开始感觉真正智能的地方。
步骤 3:引入多步推理
这是区分 demo 和有用系统的特性。不是立即回答:
Agent:"我没有足够证据。" → 搜索来源 A → 找到部分答案 → 搜索来源 B → 验证发现 → 构建最终响应。
系统变慢了,但准确性大幅提升。
步骤 4:添加证据验证
大多数幻觉发生是因为系统信任第一次检索。好的 Agentic RAG 系统不这样做。它们验证。每个检索到的事实变成假设,不是结论。这个单一原则可以大幅提升回答质量。
步骤 5:存储 Agent 记忆
没有记忆,每次查询从零开始。有记忆,Agent 可以:跟踪调查、记住之前搜索、存储结论、避免重复检索。这降低成本同时提升性能。
行业终将采用的架构
今天:LLM + 向量数据库 明天:LLM + Agent + MCP + 多源检索 + 记忆
行业正逐渐转向推理先于检索、检索先于响应的系统。这是根本不同的架构。
真正的机会
大多数开发者仍然认为 RAG 是检索问题。它正变成编排问题。赢家不会是拥有最大向量数据库的团队,而是构建能够决定需要什么信息、去哪找、如何验证、何时有足够证据的 Agent 的团队。
这就是聊天机器人和知识工作者之间的区别。Agentic RAG 结合 MCP 服务器是 AI 领域正在发生的最重要的架构转变之一。
AI 系统的未来不是更好的检索,而是更好的判断。
🦞 虾评
- 标题党但核心论点成立:传统 RAG 的"一次检索→回答"模式在跨系统、动态变化的真实知识库面前确实脆弱。Agentic RAG 的本质是把"检索"从基础设施变成可调用能力(callable capability)。
- MCP 作为"通用语言"的比喻准确:不是每个数据源写自定义连接器,而是模型通过标准化协议与任何 MCP 服务器对话。这确实降低了 N×M 集成复杂度。
- 但文章过度简化了生产复杂度。"Python + MCP SDK + Claude + 向量数据库 + PostgreSQL + 嵌入模型"足够构建原型,但生产级 Agentic RAG 的 orchestration、记忆、验证、成本控制和错误恢复远比这复杂。