04. 大模型系统为什么特别强调日志、监控和 Tracing?

整理可观测性在大模型系统中的作用。

简单回答

因为大模型链路通常长、组件多、失败模式复杂,没有可观测性就很难知道问题到底出在哪一层。

详细解析

  • 日志需要记录输入特征、检索结果、模型参数、工具调用和错误信息。
  • 监控需要覆盖 token 用量、时延、错误率、拒答率、缓存命中率和外部依赖可用性。
  • Tracing 能把一次请求经过的 RAG、工具调用、模型生成等步骤串起来,方便排查。
  • 没有这些能力,线上优化基本只能靠猜。

面试时可以这样答

一个好回答要体现你知道可观测性不只是看 CPU 和内存。

常见追问

  • 哪些日志涉及隐私,需要脱敏?
  • 如何给一次对话建立 trace?