核心洞察
Tracing 提供完整记录,monitoring 让你理解这些数据——从有数据到足够理解系统以改进它。
AI Engineering Loop 回顾
生产环境 开发迭代
─────────── ───────────
tracing datasets
monitoring experiments
↓ ↓
洞察 → ───────────────── → 改进
↑ ↑
新数据 ← ──────────────── 部署
循环:每次部署改进 → 产生新数据 → 团队持续循环。
监控在循环中的位置
Tracing 提供
- 每次请求、模型调用、工具使用的完整记录
Monitoring 提供
- 连续视图:系统随时间表现如何
- 信号检测:表面值得调查的具体 traces
- 错误
- 用户行为模式
- 意外出错的情况
Together:从有数据 → 足够理解系统以改进它。
两种监控活动
1. 聚合指标追踪(Aggregate metrics tracking)
问题:事情在变好还是变坏?
指标:
- 成本
- 延迟
- 评估分数
用途:
- 趋势观察和推理
- "上周二的 prompt 变更是否改善了什么?"
- "质量是否随使用增长而漂移?"
2. 信号检测(Signal detection)
问题:现在该看哪里?
信号:
- 错误
- 重试集群
- 用户中途放弃对话
价值:信号附带了触发它的具体 trace——这是理解问题的起点。
指标和信号的来源
内置字段(instrument 后自动获得)
- 延迟
- token 衍生成本
- 模型和路由元数据
- 工具结果
- 错误
来源:客户端和提供商 API,无需额外 wiring。
自定义添加:评估
| 类型 | 方法 | 用途 |
|---|---|---|
| 用户反馈 | 显式评分或隐式信号(会话放弃) | 趋势追踪 + 信号规则 |
| 人工标注 | 手动标注 traces | 模式识别 |
| LLM-as-a-judge | 自动化评估器打分 | 持续运行 |
数据流向:
- 聚合图表 → 追踪时间趋势
- 信号规则 → 个体 traces 表面化
用户反馈:显式 vs 隐式
显式反馈(Explicit)
| 特征 | 说明 |
|---|---|
| 形式 | thumbs up/down、星级评分、用户评论 |
| 信号 | 明确 |
| 响应率 | 低 |
| 偏差 | 不满意用户比满意用户更可能响应 |
隐式反馈(Implicit)
| 特征 | 说明 |
|---|---|
| 形式 | 重试查询、与系统分歧、复制响应、接受建议、中途放弃对话 |
| 用户努力 | 无需 |
| 数据量 | 大 |
| 信号 | 间接,需要解释 |
可用自动化评估器表面化。
示例:客服聊天机器人
场景:嵌入 SaaS 公司帮助中心的客服聊天机器人。用户可在对话结束时评分,任何时间请求人工接管。
| 反馈类型 | 具体表现 |
|---|---|
| 显式 | 对话结束时的 thumbs up / thumbs down |
| 隐式 | 对话中途请求人工接管 |
两者都注册为分数,流入相同的仪表盘、趋势图表和信号规则。
确定哪些反馈信号值得转化为自动化评估器:参见 Error analysis。
评估器类型
两种自动化评估器
| 类型 | 用途 | 场景 |
|---|---|---|
| LLM-as-a-judge | 质量信号或行为模式 | 用户分歧、语气评估 |
| 基于代码的评估器 | 精确检查 | 响应是否包含特定词、是否超过长度限制 |
更多详情:Evaluate 章节。
启动建议
从小处开始
从真实 traces 构建监控设置,而非抽象想法。
四步流程
1. 手动查看数据
→ 阅读 traces
→ 注意反复出现的东西
→ 在知道找什么之前,无法设置有用的监控
2. 使用 error analysis 表面化值得追踪的内容
→ 结构化发现跨 traces 的模式
→ 找到值得转化为持续运行的自动化评估器的反复问题
3. 思考应用特定的失败表现
→ 客服聊天中用户分歧
→ 流程自动化中的纠正
→ 往往比通用分数更可操作
→ 无需手动标注即可表面化问题
4. 视为迭代过程
→ 使用模式变化
→ 模型更新
→ 新失败模式涌现
→ 持续精炼设置,聚焦真正重要的事
监控发现问题后的路径
| 情况 | 行动 |
|---|---|
| 原因明显 | 直接修复 |
| 看起来像模式 | 捕获到 dataset |
| 怀疑系统性问题 | 运行结构化评估 |
路径选择取决于对原因的置信度。
资源
- 作者:Annabelle (@annabellschfr),Langfuse
- 原文:https://x.com/annabellschfr/status/2055665383999226107
- Langfuse Academy:https://langfuse.com/academy
- AI Engineering Loop:https://langfuse.com/academy/ai-engineering-loop
- Tracing:https://langfuse.com/academy/tracing
- Error Analysis:https://langfuse.com/academy/monitoring/error-analysis
- Evaluate:https://langfuse.com/academy/evaluate
- Datasets:https://langfuse.com/academy/datasets
- Experiments:https://langfuse.com/academy/experiments