SLA (Acuerdo de Nivel de Servicio) es un acuerdo formal entre el cliente y el equipo de TI que define los parámetros de calidad del servicio.
A nivel de arquitectura, el cumplimiento del SLA se asegura a través de medios técnicos, procesos, monitoreo y automatización. Para una implementación correcta, es importante tener una comprensión clara de los puntos críticos del sistema, su resistencia a fallos y escalabilidad.
# Ejemplo de configuración de alerta para latencia de respuesta de API - alert: HighResponseLatency expr: histogram_quantile(0.99, sum(rate(http_request_duration_seconds_bucket[5m])) by (le, service)) > 1 for: 5m labels: severity: critical annotations: summary: El tiempo de respuesta excede el SLA (99% > 1 seg)
¿Qué son las métricas operativas y para qué sirven?
Las métricas operativas son indicadores que caracterizan los parámetros reales del funcionamiento del sistema, como disponibilidad, latencia, cantidad de errores. Sirven para medir cuán bien el sistema cumple con el SLA, así como para responder rápidamente a desviaciones.
Ejemplo de código:
# Ejemplo de exportación de métricas a través del cliente de Prometheus from prometheus_client import start_http_server, Summary REQUEST_TIME = Summary('request_processing_seconds', 'Tiempo de procesamiento de la solicitud')
SLA, SLO y SLI: ¿cuál es la diferencia?
¿La alta disponibilidad garantiza solo el cumplimiento del SLA?
No, el SLA incluye no solo disponibilidad, sino también rendimiento (latencia), estabilidad (tasa de errores), y corrección en el funcionamiento. La alta disponibilidad por sí sola no garantiza el cumplimiento de los demás requisitos del SLA.