在上一篇中,我们讨论了 RAG 系统的安全性与 Prompt 注入防护。今天我们来聊聊另一个工程化深水区:可观察性(Observability)。
当系统从“能跑”走向“长期可用”,你一定会遇到三类问题:
- 慢:检索慢?LLM 慢?还是某个 Agent 在疯狂重试?
- 贵:Token 消耗是不是被某条链路悄悄吃掉了?为什么这个月的 API 账单对不上?
- 怪:偶发 Bug 无法复现,只能靠“感觉”改代码。
在这个阶段,我选择建立一套完整的 Metrics(指标) + Logs(日志) 体系,而不是仅仅打印几行 print。
1. 监控体系概览
本项目的可观测性包含两部分,目标是覆盖“宏观健康度”与“微观可追溯性”:
