2026 年每个人都在谈论 AI Agent,但大多数人不知道它们实际如何工作。
Rahul(@sairahul1)花了数周时间,整理了课程、书籍、真实构建和生产失败的教训,提炼出这份完整路线图。
第一部分:入门
1. 什么是 AI Agent?
普通 LLM 做一件事:你问,它答。一次完成。线性。无迭代。
AI Agent 工作方式不同。它像人类处理困难任务一样:先计划 → 研究 → 起草 → 审查自己的工作 → 修订 → 重复。
这被称为 ReAct 循环:Reason → Act → Observe → Repeat。
模型推理下一步做什么。行动(通常通过调用工具)。观察结果。然后要么给你答案,要么循环回去。
每一轮增加深度。更强的推理。更少的幻觉。更好的组织。一次性完成时失去的一切——Agent 都能找回。
2. Agent 真正擅长什么?
不是每个任务都需要 Agent。正确的思维模型是 2×2 矩阵:
- 低复杂度 + 高精确度 = 直接用代码
- 低复杂度 + 低精确度 = 单个 LLM prompt 即可
- 高复杂度 + 高精确度 = 带 heavy guardrails 的 Agent(税务表格、法律文档)
- 高复杂度 + 低精确度 = 最快早期胜利的甜蜜点
Agent 的完美任务示例:
- 研究并撰写报告
- 回复客户邮件(查询订单 → 起草回复)
- 处理发票
- 保存到数据库
- 通过实际检查库存回答"你们有 $80 以下的蓝色牛仔裤吗?"
Agent 在需要多步骤、外部信息、迭代和自我修正的任务中闪耀。如果能用一个 prompt 解决——不要构建 Agent。
3. 自主性光谱
构建 Agent 时的第一个重大决定:给它多少控制权?
脚本化(左端):硬编码每一步。模型只做文本生成。可预测。易于调试。有限。
半自主(中间):Agent 从你定义的工具中选择,在你设定的护栏内做决策。大多数真实生产系统所在的位置。
完全自主(右端):LLM 决定一切。搜索什么、获取多少页面、是否反思、是否写新代码并运行。更强大。更难控制。
建议:从光谱中间开始。给它工具。设定护栏。只有在你获得信心后才增加自主性。
4. 上下文工程
让 Agent "智能" 的真正因素不是模型本身,是你围绕它构建的上下文。
上下文工程 = 决定 Agent 在每一时刻拥有什么信息。包括:
- 背景——任务是什么,用户是谁
- 角色——"你是专攻市场分析的研究 Agent"
- 记忆——之前步骤中发生了什么
- 可用工具——它可以调用哪些函数
- 知识——它可以参考的文档、数据库、PDF
工程化得好 → 模型行为一致。工程化得差 → 不可预测的垃圾。模型本身是一样的。上下文是区分优秀 Agent 和损坏 Agent 的关键。
5. 任务分解
构建 Agent 中最重要的技能。
从这个问题开始:人类会如何做这个任务?然后对每个步骤问:LLM 能做这个吗?一点代码?一个 API 调用?如果答案是否定的 → 拆分到更小直到可以。
示例——论文写作 Agent:
- 大纲 → LLM 生成结构
- 搜索词 → LLM 生成,然后调用搜索 API
- 获取页面 → 工具调用
- 写草稿 → LLM 使用获取的来源
- 自我批评 → LLM 列出差距和弱点
- 修订 → LLM 基于批评重写
每个步骤都是:小 → 可检查 → 有清晰的输入和输出。当最终输出不好时,你知道确切该修复哪个步骤。这就是分解的超能力。
第二部分:中级
6. 评估(区分专业者和爱好者的无聊事)
没人想谈论 evals。每个 ship 真实系统的人都做。
简单任务 → 统计正确答案。客服机器人是否正确回答了库存问题?是/否。
复杂任务 → 用 LLM 作为评判。让第二个模型用固定评分标准给输出打 1-5 分。论文有有力的论点吗?适当的引用吗?正确的语调吗?
两个评估层次:
- 组件级——每个单独步骤是否工作?(搜索查询是否足够具体?批评是否传递真实反馈?)
- 端到端——最终输出是否好?(论文实际上好吗?)
如果端到端失败但组件 evals 通过 → 交接问题。如果特定组件失败 → 该 Agent 需要工作。
从第一天开始评估。不要等待"完美"的 eval 系统。快速 ship 并迭代。
7. 记忆与知识
两个非常不同但人们混淆的东西。
记忆 = 动态。每次运行更新。
- 短期:Agent 工作时写笔记。其他 Agent 可以读这些笔记。
- 长期:任务后,Agent 反思。什么做得好?什么没做好?存储教训。下次运行 → 加载这些教训 → 应用它们。
这就是你如何"训练"Agent 而不 fine-tuning。给反馈 → Agent 每次运行都改进。
知识 = 静态。预先加载。
- PDF、CSV、内部文档、数据库访问
- Agent 的参考图书馆
- 给一次。需要时随时提取以提供准确答案
记忆 = 你从经验中学到的。知识 = 你可以参考的教科书。两者都重要。 neither 替代另一个。
8. 护栏
工作的 Agent 不是安全的 Agent。LLM 是非确定性的。它们可能格式错误、陈述虚假事实、偏离任务。
护栏是"Agent 说完成了"和"任务实际上最终确定"之间的质量门。
三种类型:
类型 1 — 代码检查(快速 + 便宜) 用于确定性事物。输出格式正确吗?长度对吗?必填字段存在吗?写一个简单的验证函数。即时运行。尽可能优先使用这个。
类型 2 — LLM 评判 用于细微的质量检查。"这个回复是否与源文档事实一致?""语调是否专业且积极?"如果评判说不 → 解释为什么 → Agent 修订 → 重试。
类型 3 — 人类在循环中 用于高风险决策。Agent 在最终确定前停止。发送输出供人类审查。人类批准、拒绝或请求更改。
大多数生产系统至少使用这三种中的两种。
9. 四个提升每个 Agent 的设计模式
模式 1:反思 不要在第一稿停止。模型产生输出 → 批评它 → 基于批评重写。对代码更强大——写它、运行它、捕获错误、反馈、模型修复。用于:结构化输出、长文写作、代码、程序步骤。
模式 2:工具使用 给 LLM 一个它可以调用的功能菜单。模型决定何时以及使用哪个工具。网络搜索、数据库查询、代码执行、日历、邮件、API 调用。LLM 单独不能做这些。工具是 Agent 与世界交互的方式。
模式 3:规划 不是固定管道,让 Agent 决定步骤。给它一个工具包。提示它制定计划。逐步执行。零售示例:"$100 以下有圆形太阳镜吗?"Agent 计划:搜索描述 → 检查库存 → 按价格过滤 → 回答。
模式 4:多 Agent 协作 将复杂工作拆分到专业 Agent。研究员 → 设计师 → 写手。每个 Agent 擅长其特定工作。输出更好,因为没有一个 Agent 试图做所有事情。
10. 多 Agent 系统设计
四种协调模式,从最简单到最复杂:
顺序:每个 Agent 完成 → 传递输出给下一个 Agent。像流水线。研究员 → 设计师 → 写手 → 完成。易于调试。可预测。从这里开始。
并行:同时运行独立 Agent。研究员 + 设计师同时工作。写手合并他们的输出。更快。更多协调复杂性。
管理层次:一个管理 Agent 协调专家。管理计划、委派、审查。专家向管理报告,不互相报告。当今真实生产系统中最常见的模式。
全对全:任何 Agent 可以给任何其他 Agent 发消息。混乱。难以预测。仅用于创意/低风险工作,变化可以接受。不要在生产中使用。
经验法则:从顺序开始。仅在需要时增加复杂性。
第三部分:生产
11. 高级任务分解
复杂多 Agent 系统中,分解方式很重要。四种模式:
功能型——按技术域拆分。前端 Agent。后端 Agent。数据库 Agent。工程团队的经典模式。
空间型——按文件或目录结构拆分。Agent 1 处理 /services/users/。Agent 2 处理 /services/orders/。大型代码库的理想选择。最小化冲突。
时间型——按顺序阶段拆分。阶段 1:研究。阶段 2:计划。阶段 3:构建。阶段 4:发布。每个阶段在下个阶段开始前完成。
数据驱动型——按数据分区拆分。Agent 1 处理第 1 周日志。Agent 2 处理第 2 周。等等。大数据集的强大选择。并行化分析。
可以混合使用。主结构用功能型分解 + 每个 Agent 内部用时间型分解。使用匹配任务自然边界的方式。
12. 生产中提升质量
系统在工作但不够好。两种组件。两种不同修复策略。
非 LLM 组件(网络搜索、RAG、OCR、代码执行):
- 调整旋钮:搜索日期范围、top-k 结果、chunk 大小、相似度阈值
- 更换提供商:尝试不同的搜索 API、视觉模型、解析器
LLM 组件(生成、推理、提取):
- 更好的 prompt:添加约束、示例、输出模式
- 尝试不同模型:有些模型更擅长代码,其他更擅长遵循指令
- 将更难的任务分解为更小的部分
- Fine-tuning(最后手段——昂贵,留给最后几个百分点)
顺序很重要。先修复 prompts。尝试不同模型。进一步分解。Fine-tuning 最后。大多数团队在步骤 2 达到足够好的质量。
13. 延迟和成本
质量第一。然后速度和成本。
减少延迟:
- 测量每个步骤。找到真正的瓶颈。
- 并行化任何不依赖其他步骤的事情。
- 合适尺寸的模型——简单步骤用快速便宜 LLM,推理用大型模型。
- 尝试更快的提供商——token 流式传输速度差异很大。
- 修剪上下文——更短的 prompts 解码更快。
减少成本: 典型研究 Agent 运行的真实成本分解:
- LLM 生成调用:~$0.04
- 网络搜索 API 调用:~$0.02
- Embedding 调用:~$0.005
- 基础设施:~$0.015
- 每次运行总计:~$0.08
1,000 次运行/天 = 2,400/月。
如何削减:
- 先攻击最大的桶
- 分层模型——简单用便宜,困难用昂贵
- 积极缓存结果(搜索结果、embeddings、摘要)
- 约束输出("返回 JSON。最多 5 个字段。")
- 尽可能批量操作
14. 可观测性:规模化监控 Agent
传统软件:追踪执行路径。A 调用 B。B 调用 DB。返回结果。
AI Agent 不是这样工作的。它们是非确定性的。相同输入 → 不同输出。分布式执行。可能失败的外部依赖。
需要两种可见性:
Zoom-in 指标(单次运行调试):
- 完整追踪:每个 prompt、每个工具调用、每个使用的 token
- Agent 为什么选择这个工具?
- 每个步骤返回了什么?
- 它确切在哪里失败了?
不仅记录发生了什么,还记录为什么:"Agent 选择网络搜索而非 RAG,因为查询包含'最近'""反思识别出 3 个问题:缺少引用、模糊日期、错误语调"
Zoom-out 指标(跨多次运行的系统健康):
- 随时间的质量分数
- 幻觉率
- 成功率
- 变化在帮助还是伤害?
你无法在规模上手动检查每个追踪。使用质量采样——评估所有运行的百分比。建立趋势线。这是在用户之前捕捉回归的方式。
15. 安全:没人谈论但应该谈论的部分
AI Agent 的安全不像传统应用安全。你不仅要保护免受外部攻击者。你还要保护自己的系统做出危险决策。
威胁:
- Prompt 注入——用户输入中的恶意内容劫持 Agent 的指令
- 不安全代码生成——Agent 编写访问敏感数据或做有害事情的代码
- 数据泄漏——PII 或专有信息通过输出或工具调用暴露
- 资源耗尽——Agent 旋转无限循环或燃烧昂贵的 API 调用
代码执行是最危险的功能。如果启用,安全做法:
- Docker 沙盒。每次运行后销毁容器。
- 设置硬资源限制:超时、内存上限、CPU 限制
- 仅白名单特定安全库
- 所有输入到达 Agent 前验证
- 扫描所有输出中的敏感数据(API 密钥、PII)
- 使用确定性 I/O——代码返回结构化 JSON,不是自由格式文本给用户
大多数团队以艰难的方式学到这些教训。Ship 之前读这个。
总结
入门:Agent 迭代工作——计划、行动、观察、重复。最适合复杂多步骤任务,可处理 ~90% 准确率。从半自主开始,不是完全自主。上下文工程是真正的智能。任务分解是最重要的技能。
中级:从第一天开始评估——复杂任务用 LLM-as-judge。记忆(动态)≠ 知识(静态)。三种护栏:代码 → LLM 评判 → 人类。四个总是有帮助的模式:反思、工具使用、规划、多 Agent。从顺序开始。仅在需要时增加协调复杂性。
生产:4 种分解模式:功能型、空间型、时间型、数据驱动型。Fine-tuning 之前先修复 prompts。按步骤测量延迟和成本,然后攻击最大的桶。两种可观测性模式:zoom-in 追踪 + zoom-out 健康指标。安全 = 保护自己系统,不只是攻击者。
大多数人开始构建 Agent。少数人 ship 在规模上可靠工作的 Agent。差距就是这篇文章中的 everything。