Antwoord.

SLA (Service Level Agreement) is een formele overeenkomst tussen de klant en het IT-team die de parameters van de servicekwaliteit definieert.

Op het niveau van architectuur wordt naleving van SLA gewaarborgd door technische middelen, processen, monitoring en automatisering. Voor een correcte implementatie is het belangrijk om een duidelijk beeld te hebben van de kritische systemen, hun fouttolerantie en schaalbaarheid.

Voorbeeldcode (monitoring SLA met Prometheus en Alertmanager):

# Voorbeeldconfiguratie voor waarschuwing bij vertraging in API-respons
- alert: HighResponseLatency
  expr: histogram_quantile(0.99, sum(rate(http_request_duration_seconds_bucket[5m])) by (le, service)) > 1
  for: 5m
  labels:
    severity: critical
  annotations:
    summary: Respons tijd overschrijdt SLA (99% > 1 sec)

Sleutelkenmerken:

Het is noodzakelijk om bedrijfs-kritische codepaden te identificeren en SLA-indicatoren daarop toe te passen.
De architectuur moet een systeem voor het verzamelen en opslaan van metrics, een alarmeringsmechanisme en redundantie voorzien.
Geautomatiseerde monitoringtools en gecentraliseerd logboek (logging) worden geïmplementeerd.

Vragen met valstrikken.

Wat zijn operationele metrics en waarom zijn ze nodig?

Operationele metrics zijn indicatoren die de werkelijke parameters van het systeem kenmerkend zijn, bijvoorbeeld beschikbaarheid, vertraging, aantal fouten. Ze zijn nodig om te meten hoe goed het systeem voldoet aan de SLA, en om snel te reageren op afwijkingen.

Voorbeeldcode:

# Voorbeeld van het exporteren van metrics via Prometheus client
from prometheus_client import start_http_server, Summary
REQUEST_TIME = Summary('request_processing_seconds', 'Tijd voor het verwerken van verzoeken')

SLA, SLO en SLI: wat is het verschil?

SLA - een overeenkomst over kwaliteit tussen de klant en de service.
SLO - specifieke doelen of drempels (SLA kan meerdere SLO's omvatten).
SLI - de werkelijke meting van de parameter (bijvoorbeeld % succesvolle verzoeken per uur).

Garandeert alleen hoge beschikbaarheid de naleving van SLA?

Nee, SLA omvat niet alleen beschikbaarheid, maar ook prestaties (latentie), stabiliteit (foutpercentage), en correctheid. Hoge beschikbaarheid garandeert op zich niet dat aan de overige SLA-eisen wordt voldaan.

Hoe SLA (Service Level Agreement) op het niveau van IT-systeemarchitectuur te organiseren en welke metrics zijn belangrijk om rekening mee te houden?

Antwoord.

Voorbeeldcode (monitoring SLA met Prometheus en Alertmanager):

Sleutelkenmerken:

Vragen met valstrikken.