Antwort.

SLA (Service Level Agreement) ist eine formale Vereinbarung zwischen dem Kunden und dem IT-Team, die die Qualitätsparameter des Dienstes definiert.

Auf Architektur ebene wird die Einhaltung von SLA durch technische Mittel, Prozesse, Überwachung und Automatisierung sichergestellt. Für die korrekte Umsetzung ist es wichtig, ein klares Verständnis der kritischen Systeme, ihrer Ausfallsicherheit und Skalierbarkeit zu haben.

Beispielcode (Überwachung von SLA mit Prometheus und Alertmanager):

# Beispielkonfiguration für einen Alarm bei Verzögerung der API-Antwort
- alert: HighResponseLatency
  expr: histogram_quantile(0.99, sum(rate(http_request_duration_seconds_bucket[5m])) by (le, service)) > 1
  for: 5m
  labels:
    severity: critical
  annotations:
    summary: Antworzeit überschreitet SLA (99% > 1 Sek)

Wichtige Merkmale:

Es ist notwendig, geschäftskritische Codepfade zu identifizieren und SLA-Metriken darauf anzuwenden
Die Architektur muss ein System zur Sammlung und Speicherung von Metriken, einen Mechanismus zur Alarmierung und zur Redundanz vorsehen
Es werden Mittel zur automatisierten Überwachung und ein zentrales Logbuch (Logging) implementiert

Fragen mit Haken.

Was sind Betriebsmetriken und warum sind sie nötig?

Betriebsmetriken sind Kennzahlen, die die tatsächlichen Betriebsparameter eines Systems charakterisieren, z.B. Verfügbarkeit, Verzögerung, Anzahl der Fehler. Sie sind erforderlich, um zu messen, wie gut das System SLA erfüllt und um schnell auf Abweichungen reagieren zu können.

Beispielcode:

# Beispiel für den Export von Metriken über den Prometheus-Client
from prometheus_client import start_http_server, Summary
REQUEST_TIME = Summary('request_processing_seconds', 'Verarbeitungszeit der Anfrage')

SLA, SLO und SLI: Wo ist der Unterschied?

SLA — Vereinbarung über Qualität zwischen Kunden und Dienst.
SLO — konkrete Ziele oder Schwellenwerte (ein SLA kann mehrere SLOs umfassen).
SLI — tatsächliche Messung des Parameters (z.B. % erfolgreicher Anfragen pro Stunde).

Gewährleistet nur hohe Verfügbarkeit die Einhaltung von SLA?

Nein, SLA umfasst nicht nur Verfügbarkeit, sondern auch Leistung (Latenz), Stabilität (Fehlerrate) und Korrektheit der Funktion. Hohe Verfügbarkeit allein garantiert nicht die Erfüllung der anderen SLA-Anforderungen.

Wie organisiert man SLA (Service Level Agreement) auf Architektur ebene von IT-Systemen und welche Metriken sind wichtig zu berücksichtigen?

Antwort.

Beispielcode (Überwachung von SLA mit Prometheus und Alertmanager):

Wichtige Merkmale:

Fragen mit Haken.