SLI/SLO/SLA:用数据衡量服务质量
前言
"系统稳定吗?"——这个问题太模糊了。SRE(Site Reliability Engineering)的核心方法论之一就是用 SLI、SLO、SLA 三个层次来精确衡量和管理服务质量。
本文带你理解这三个概念的关系、如何选择正确的 SLI、如何制定合理的 SLO,以及如何用"错误预算"来驱动技术决策。
第一部分:SLI、SLO、SLA 是什么
1.1 一层一层的关系
SLA (Service Level Agreement) ← 对外承诺(合同级)
│ "99.9% 可用性,违约赔偿"
│
├── SLO (Service Level Objective) ← 内部目标(比 SLA 更严格)
│ │ "99.95% 可用性"(留出缓冲空间)
│ │
│ └── SLI (Service Level Indicator) ← 实际测量值
│ "过去 30 天:99.97% 可用性"
│
└── 关系:SLI 测量 → SLO 对比 → SLA 承诺
大约 10 分钟