Arquitectura (IT)Arquitecto de Sistemas

¿Cómo organizar un SLA (Acuerdo de Nivel de Servicio) a nivel de arquitectura de sistemas de TI y cuáles métricas son importantes a considerar?

Supere entrevistas con el asistente de IA Hintsage

Respuesta.

SLA (Acuerdo de Nivel de Servicio) es un acuerdo formal entre el cliente y el equipo de TI que define los parámetros de calidad del servicio.

A nivel de arquitectura, el cumplimiento del SLA se asegura a través de medios técnicos, procesos, monitoreo y automatización. Para una implementación correcta, es importante tener una comprensión clara de los puntos críticos del sistema, su resistencia a fallos y escalabilidad.

Ejemplo de código (monitoreo de SLA con Prometheus y Alertmanager):

# Ejemplo de configuración de alerta para latencia de respuesta de API - alert: HighResponseLatency expr: histogram_quantile(0.99, sum(rate(http_request_duration_seconds_bucket[5m])) by (le, service)) > 1 for: 5m labels: severity: critical annotations: summary: El tiempo de respuesta excede el SLA (99% > 1 seg)

Características clave:

  • Es necesario identificar las rutas de código críticas para el negocio y aplicarles los indicadores de SLA
  • La arquitectura debe prever un sistema de recopilación y almacenamiento de métricas, un mecanismo de alerta y redundancia
  • Se implementan herramientas de monitoreo automatizado y un registro centralizado (logging)

Preguntas capciosas.

¿Qué son las métricas operativas y para qué sirven?

Las métricas operativas son indicadores que caracterizan los parámetros reales del funcionamiento del sistema, como disponibilidad, latencia, cantidad de errores. Sirven para medir cuán bien el sistema cumple con el SLA, así como para responder rápidamente a desviaciones.

Ejemplo de código:

# Ejemplo de exportación de métricas a través del cliente de Prometheus from prometheus_client import start_http_server, Summary REQUEST_TIME = Summary('request_processing_seconds', 'Tiempo de procesamiento de la solicitud')

SLA, SLO y SLI: ¿cuál es la diferencia?

  • SLA — acuerdo sobre la calidad entre el cliente y el servicio.
  • SLO — objetivos específicos o umbrales (un SLA puede incluir varios SLO).
  • SLI — medida real de un parámetro (por ejemplo, % de solicitudes exitosas por hora).

¿La alta disponibilidad garantiza solo el cumplimiento del SLA?

No, el SLA incluye no solo disponibilidad, sino también rendimiento (latencia), estabilidad (tasa de errores), y corrección en el funcionamiento. La alta disponibilidad por sí sola no garantiza el cumplimiento de los demás requisitos del SLA.