Respuesta.

SLA (Acuerdo de Nivel de Servicio) es un acuerdo formal entre el cliente y el equipo de TI que define los parámetros de calidad del servicio.

A nivel de arquitectura, el cumplimiento del SLA se asegura a través de medios técnicos, procesos, monitoreo y automatización. Para una implementación correcta, es importante tener una comprensión clara de los puntos críticos del sistema, su resistencia a fallos y escalabilidad.

Ejemplo de código (monitoreo de SLA con Prometheus y Alertmanager):

# Ejemplo de configuración de alerta para latencia de respuesta de API
- alert: HighResponseLatency
  expr: histogram_quantile(0.99, sum(rate(http_request_duration_seconds_bucket[5m])) by (le, service)) > 1
  for: 5m
  labels:
    severity: critical
  annotations:
    summary: El tiempo de respuesta excede el SLA (99% > 1 seg)

Características clave:

Es necesario identificar las rutas de código críticas para el negocio y aplicarles los indicadores de SLA
La arquitectura debe prever un sistema de recopilación y almacenamiento de métricas, un mecanismo de alerta y redundancia
Se implementan herramientas de monitoreo automatizado y un registro centralizado (logging)

Preguntas capciosas.

¿Qué son las métricas operativas y para qué sirven?

Las métricas operativas son indicadores que caracterizan los parámetros reales del funcionamiento del sistema, como disponibilidad, latencia, cantidad de errores. Sirven para medir cuán bien el sistema cumple con el SLA, así como para responder rápidamente a desviaciones.

Ejemplo de código:

# Ejemplo de exportación de métricas a través del cliente de Prometheus
from prometheus_client import start_http_server, Summary
REQUEST_TIME = Summary('request_processing_seconds', 'Tiempo de procesamiento de la solicitud')

SLA, SLO y SLI: ¿cuál es la diferencia?

SLA — acuerdo sobre la calidad entre el cliente y el servicio.
SLO — objetivos específicos o umbrales (un SLA puede incluir varios SLO).
SLI — medida real de un parámetro (por ejemplo, % de solicitudes exitosas por hora).

¿La alta disponibilidad garantiza solo el cumplimiento del SLA?

No, el SLA incluye no solo disponibilidad, sino también rendimiento (latencia), estabilidad (tasa de errores), y corrección en el funcionamiento. La alta disponibilidad por sí sola no garantiza el cumplimiento de los demás requisitos del SLA.

¿Cómo organizar un SLA (Acuerdo de Nivel de Servicio) a nivel de arquitectura de sistemas de TI y cuáles métricas son importantes a considerar?

Respuesta.

Ejemplo de código (monitoreo de SLA con Prometheus y Alertmanager):

Características clave:

Preguntas capciosas.