生产环境中监控 AI Agent

核心洞察

Tracing 提供完整记录，monitoring 让你理解这些数据——从有数据到足够理解系统以改进它。

AI Engineering Loop 回顾

生产环境                    开发迭代
───────────                ───────────
tracing                    datasets
monitoring                 experiments
    ↓                         ↓
  洞察 → ───────────────── → 改进
    ↑                         ↑
  新数据 ← ──────────────── 部署

循环：每次部署改进 → 产生新数据 → 团队持续循环。

监控在循环中的位置

Tracing 提供

每次请求、模型调用、工具使用的完整记录

Monitoring 提供

连续视图：系统随时间表现如何
信号检测：表面值得调查的具体 traces
- 错误
- 用户行为模式
- 意外出错的情况

Together：从有数据 → 足够理解系统以改进它。

两种监控活动

1. 聚合指标追踪（Aggregate metrics tracking）

问题：事情在变好还是变坏？

指标：

成本
延迟
评估分数

用途：

趋势观察和推理
"上周二的 prompt 变更是否改善了什么？"
"质量是否随使用增长而漂移？"

2. 信号检测（Signal detection）

问题：现在该看哪里？

信号：

错误
重试集群
用户中途放弃对话

价值：信号附带了触发它的具体 trace——这是理解问题的起点。

指标和信号的来源

内置字段（instrument 后自动获得）

延迟
token 衍生成本
模型和路由元数据
工具结果
错误

来源：客户端和提供商 API，无需额外 wiring。

自定义添加：评估

类型	方法	用途
用户反馈	显式评分或隐式信号（会话放弃）	趋势追踪 + 信号规则
人工标注	手动标注 traces	模式识别
LLM-as-a-judge	自动化评估器打分	持续运行

数据流向：

聚合图表 → 追踪时间趋势
信号规则 → 个体 traces 表面化

用户反馈：显式 vs 隐式

显式反馈（Explicit）

特征	说明
形式	thumbs up/down、星级评分、用户评论
信号	明确
响应率	低
偏差	不满意用户比满意用户更可能响应

隐式反馈（Implicit）

特征	说明
形式	重试查询、与系统分歧、复制响应、接受建议、中途放弃对话
用户努力	无需
数据量	大
信号	间接，需要解释

可用自动化评估器表面化。

示例：客服聊天机器人

场景：嵌入 SaaS 公司帮助中心的客服聊天机器人。用户可在对话结束时评分，任何时间请求人工接管。

反馈类型	具体表现
显式	对话结束时的 thumbs up / thumbs down
隐式	对话中途请求人工接管

两者都注册为分数，流入相同的仪表盘、趋势图表和信号规则。

确定哪些反馈信号值得转化为自动化评估器：参见 Error analysis。

评估器类型

两种自动化评估器

类型	用途	场景
LLM-as-a-judge	质量信号或行为模式	用户分歧、语气评估
基于代码的评估器	精确检查	响应是否包含特定词、是否超过长度限制

更多详情：Evaluate 章节。

启动建议

从小处开始

从真实 traces 构建监控设置，而非抽象想法。

四步流程

1. 手动查看数据
   → 阅读 traces
   → 注意反复出现的东西
   → 在知道找什么之前，无法设置有用的监控

2. 使用 error analysis 表面化值得追踪的内容
   → 结构化发现跨 traces 的模式
   → 找到值得转化为持续运行的自动化评估器的反复问题

3. 思考应用特定的失败表现
   → 客服聊天中用户分歧
   → 流程自动化中的纠正
   → 往往比通用分数更可操作
   → 无需手动标注即可表面化问题

4. 视为迭代过程
   → 使用模式变化
   → 模型更新
   → 新失败模式涌现
   → 持续精炼设置，聚焦真正重要的事

监控发现问题后的路径

情况	行动
原因明显	直接修复
看起来像模式	捕获到 dataset
怀疑系统性问题	运行结构化评估

路径选择取决于对原因的置信度。

资源

作者：Annabelle (@annabellschfr)，Langfuse
原文：https://x.com/annabellschfr/status/2055665383999226107
Langfuse Academy：https://langfuse.com/academy
AI Engineering Loop：https://langfuse.com/academy/ai-engineering-loop
Tracing：https://langfuse.com/academy/tracing
Error Analysis：https://langfuse.com/academy/monitoring/error-analysis
Evaluate：https://langfuse.com/academy/evaluate
Datasets：https://langfuse.com/academy/datasets
Experiments：https://langfuse.com/academy/experiments