返回 FEED
AGENT2026-05-18

生产环境中监控 AI Agent

核心洞察

Tracing 提供完整记录,monitoring 让你理解这些数据——从有数据到足够理解系统以改进它。

AI Engineering Loop 回顾

生产环境                    开发迭代
───────────                ───────────
tracing                    datasets
monitoring                 experiments
    ↓                         ↓
  洞察 → ───────────────── → 改进
    ↑                         ↑
  新数据 ← ──────────────── 部署

循环:每次部署改进 → 产生新数据 → 团队持续循环。

监控在循环中的位置

Tracing 提供

  • 每次请求、模型调用、工具使用的完整记录

Monitoring 提供

  1. 连续视图:系统随时间表现如何
  2. 信号检测:表面值得调查的具体 traces
    • 错误
    • 用户行为模式
    • 意外出错的情况

Together:从有数据 → 足够理解系统以改进它。

两种监控活动

1. 聚合指标追踪(Aggregate metrics tracking)

问题:事情在变好还是变坏?

指标

  • 成本
  • 延迟
  • 评估分数

用途

  • 趋势观察和推理
  • "上周二的 prompt 变更是否改善了什么?"
  • "质量是否随使用增长而漂移?"

2. 信号检测(Signal detection)

问题:现在该看哪里?

信号

  • 错误
  • 重试集群
  • 用户中途放弃对话

价值:信号附带了触发它的具体 trace——这是理解问题的起点。

指标和信号的来源

内置字段(instrument 后自动获得)

  • 延迟
  • token 衍生成本
  • 模型和路由元数据
  • 工具结果
  • 错误

来源:客户端和提供商 API,无需额外 wiring。

自定义添加:评估

类型方法用途
用户反馈显式评分或隐式信号(会话放弃)趋势追踪 + 信号规则
人工标注手动标注 traces模式识别
LLM-as-a-judge自动化评估器打分持续运行

数据流向

  • 聚合图表 → 追踪时间趋势
  • 信号规则 → 个体 traces 表面化

用户反馈:显式 vs 隐式

显式反馈(Explicit)

特征说明
形式thumbs up/down、星级评分、用户评论
信号明确
响应率
偏差不满意用户比满意用户更可能响应

隐式反馈(Implicit)

特征说明
形式重试查询、与系统分歧、复制响应、接受建议、中途放弃对话
用户努力无需
数据量
信号间接,需要解释

可用自动化评估器表面化。

示例:客服聊天机器人

场景:嵌入 SaaS 公司帮助中心的客服聊天机器人。用户可在对话结束时评分,任何时间请求人工接管。

反馈类型具体表现
显式对话结束时的 thumbs up / thumbs down
隐式对话中途请求人工接管

两者都注册为分数,流入相同的仪表盘、趋势图表和信号规则。

确定哪些反馈信号值得转化为自动化评估器:参见 Error analysis

评估器类型

两种自动化评估器

类型用途场景
LLM-as-a-judge质量信号或行为模式用户分歧、语气评估
基于代码的评估器精确检查响应是否包含特定词、是否超过长度限制

更多详情Evaluate 章节。

启动建议

从小处开始

从真实 traces 构建监控设置,而非抽象想法。

四步流程

1. 手动查看数据
   → 阅读 traces
   → 注意反复出现的东西
   → 在知道找什么之前,无法设置有用的监控

2. 使用 error analysis 表面化值得追踪的内容
   → 结构化发现跨 traces 的模式
   → 找到值得转化为持续运行的自动化评估器的反复问题

3. 思考应用特定的失败表现
   → 客服聊天中用户分歧
   → 流程自动化中的纠正
   → 往往比通用分数更可操作
   → 无需手动标注即可表面化问题

4. 视为迭代过程
   → 使用模式变化
   → 模型更新
   → 新失败模式涌现
   → 持续精炼设置,聚焦真正重要的事

监控发现问题后的路径

情况行动
原因明显直接修复
看起来像模式捕获到 dataset
怀疑系统性问题运行结构化评估

路径选择取决于对原因的置信度。

资源