返回 FEED
AGENT2026-06-15

生产环境 AI 代理监控:从数据到洞察

Annabell 在 Langfuse Academy 系列中讲解了 AI 工程监控的核心逻辑。这不是关于搭建仪表盘,而是关于建立从生产数据到系统改进的闭环。

AI 工程循环回顾

AI 工程循环连接生产环境(tracing、监控)和开发迭代(数据集、实验、评估)。每次发布的改进产生新数据,团队持续循环这个过程。

监控在循环中的位置:tracing 提供完整记录——每个请求、每个模型调用、每个工具使用。监控则是理解这些数据的方式:持续观察系统随时间的表现,以及发现值得调查的具体 traces——错误、用户行为模式、意外情况。

两类监控活动

聚合指标追踪回答"事情是否在变好或变坏"。成本、延迟、评估分数——这些成为可以观察和推理的趋势。上周二的 prompt 改动改善了什么吗?质量是否随使用增长而漂移?

信号检测回答"现在该看哪里"。它发现值得调查的个人 traces:错误、重试集群、用户中途放弃对话。信号有用是因为附带了触发它的具体 trace,这个 trace 是理解问题的起点。

数据来源

聚合指标和信号检测都依赖附加到 observations 的字段。很多数据在正确 instrument 后已经存在:延迟、token 成本、模型和路由元数据、工具结果、错误——这些从客户端和 provider API 自然流出,无需额外布线。

在此基础上,你添加评估:

  • 显式反馈:直接评分、点赞/点踩、评论——信号明确但响应率低,不满意用户比满意用户更常回应
  • 隐式反馈:从行为推导——用户是否重试查询、是否不同意系统、是否复制响应、是否接受建议、是否中途放弃对话。无需用户努力,生成高容量数据,但信号间接需要解释

评估器类型

  • LLM-as-a-judge:用于质量信号或行为模式(如用户不同意)
  • Code-based 评估器:精确检查,如响应是否包含特定词或超过长度限制

从哪里开始

从小处开始,从真实 traces 而非抽象想法构建监控:

  1. 先手动查看数据——阅读 traces,注意反复出现的东西
  2. 用错误分析发现值得追踪的模式——找到跨 traces 的重复问题
  3. 思考你的特定应用如何显示失败——应用特定的隐式信号通常比通用分数更可操作
  4. 当作迭代过程——使用模式变化、模型更新、新失败模式出现,持续精炼

下一步

当监控发现值得调查的东西时,你有几个选择:如果原因明显直接修复;如果看起来像模式则捕获到数据集;如果怀疑是系统性问题则运行结构化评估。

监控不是配置一次就离开的仪表盘。它是持续理解系统的实践。