跳至主要內容
从零搭建可观测性平台:Prometheus + Grafana + Jaeger

从零搭建可观测性平台:Prometheus + Grafana + Jaeger

前言

"线上出问题了,看日志才发现。"——这是运维的噩梦。可观测性(Observability)让系统变得"透明",让你在问题发生前就能察觉,发生时能快速定位根因。

本文带你从零搭建一套完整的可观测性平台,覆盖 Metrics + Tracing + Logging 三大支柱。


第一部分:可观测性三大支柱

1.1 三支柱全景

┌─────────────────────────────────────────────────────────┐
│                   可观测性平台                            │
│                                                         │
│  ┌─────────────┐  ┌─────────────┐  ┌─────────────┐     │
│  │  Metrics    │  │  Tracing    │  │  Logging    │     │
│  │  (指标)     │  │  (追踪)     │  │  (日志)     │     │
│  ├─────────────┤  ├─────────────┤  ├─────────────┤     │
│  │ Prometheus  │  │  Jaeger     │  │  ELK/Loki   │     │
│  │ + Grafana   │  │  + OTEL     │  │             │     │
│  └─────────────┘  └─────────────┘  └─────────────┘     │
│                                                         │
│  回答什么问题:    回答什么问题:   回答什么问题:         │
│  "系统现在正常吗?" "请求经过了哪些  "出错时的详细         │
│  "QPS是多少?"    服务?哪里慢了?" 上下文是什么?"       │
│  "错误率多少?"                                      │
└─────────────────────────────────────────────────────────┘

郑天祺大约 8 分钟运维可观测性PrometheusGrafanaJaegerOpenTelemetrySpring Boot