从零搭建可观测性平台:Prometheus + Grafana + Jaeger
前言
"线上出问题了,看日志才发现。"——这是运维的噩梦。可观测性(Observability)让系统变得"透明",让你在问题发生前就能察觉,发生时能快速定位根因。
本文带你从零搭建一套完整的可观测性平台,覆盖 Metrics + Tracing + Logging 三大支柱。
第一部分:可观测性三大支柱
1.1 三支柱全景
┌─────────────────────────────────────────────────────────┐
│ 可观测性平台 │
│ │
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │
│ │ Metrics │ │ Tracing │ │ Logging │ │
│ │ (指标) │ │ (追踪) │ │ (日志) │ │
│ ├─────────────┤ ├─────────────┤ ├─────────────┤ │
│ │ Prometheus │ │ Jaeger │ │ ELK/Loki │ │
│ │ + Grafana │ │ + OTEL │ │ │ │
│ └─────────────┘ └─────────────┘ └─────────────┘ │
│ │
│ 回答什么问题: 回答什么问题: 回答什么问题: │
│ "系统现在正常吗?" "请求经过了哪些 "出错时的详细 │
│ "QPS是多少?" 服务?哪里慢了?" 上下文是什么?" │
│ "错误率多少?" │
└─────────────────────────────────────────────────────────┘
大约 8 分钟