SLA (Hizmet Seviyesi Anlaşması) — müşteri ile IT ekibi arasında, hizmet kalitesinin parametrelerini belirleyen resmi bir anlaşmadır.
Mimari seviyede SLA'nın sağlanması teknik araçlar, süreçler, izleme ve otomasyon ile gerçekleştirilir. Doğru bir uygulama için sistemin kritik bileşenleri, arıza dayanıklılığı ve ölçeklenebilirliği hakkında net bir anlayışa sahip olmak önemlidir.
# API yanıt gecikmesi için uyarı yapılandırma örneği - alert: HighResponseLatency expr: histogram_quantile(0.99, sum(rate(http_request_duration_seconds_bucket[5m])) by (le, service)) > 1 for: 5m labels: severity: critical annotations: summary: Yanıt süresi SLA'yı aşıyor (99% > 1 saniye)
İşletme metrikleri nedir ve neden gereklidir?
İşletme metrikleri — sistemin gerçek iş parametrelerini, örneğin, kullanılabilirlik, gecikme, hata sayısı gibi, tanımlayan göstergelerdir. Bunlar, sistemin SLA'ya ne kadar uygun olduğunu ölçmek ve sapmalara hızlı yanıt vermek için gereklidir.
Örnek kod:
# Prometheus istemcisi ile metriklerin dışa aktarılması örneği from prometheus_client import start_http_server, Summary REQUEST_TIME = Summary('request_processing_seconds', 'İsteğin işlenme süresi')
SLA, SLO ve SLI: fark nedir?
Sadece yüksek erişilebilirlik SLA'nın yerine getirilmesini sağlar mı?
Hayır, SLA sadece erişilebilirliği değil, aynı zamanda performansı (gecikme), kararlılığı (hata oranı) ve işlevselliği (doğruluk) de içerir. Yüksek erişilebilirlik kendiliğinden diğer SLA gerekliliklerinin yerine getirilmesini garanti etmez.