Respuesta a la pregunta

Historia de la pregunta

La evolución de las plataformas de observabilidad ha pasado de almacenes de datos aislados e índices propietarios costosos a arquitecturas de lakehouse unificadas que combinan la flexibilidad de los lagos de datos con el rendimiento de los almacenes. Los primeros proveedores de observabilidad SaaS dependían de Elasticsearch o clústeres de Splunk, que enfrentaban curvas de costos exponenciales a escala de petabytes y luchaban con un verdadero aislamiento multi-inquilino. La aparición de formatos de tabla abiertos como Apache Iceberg y Delta Lake permitió transacciones atómicas y viajes en el tiempo en el almacenamiento de objetos, mientras que motores de consulta como Trino maduraron para proporcionar SQL interactivo sobre almacenamiento en la nube. Esta convergencia creó la posibilidad de atender a miles de inquilinos desde una infraestructura compartida única, pero introdujo nuevos desafíos para mantener una latencia de sub-segundos mientras se imponen estrictos límites de seguridad y se optimizan los costos de almacenamiento a través de un almacenamiento inteligente.

El problema

El desafío principal radica en conciliar requisitos conflictivos: ingerir millones de eventos por segundo de diversos agentes (Fluentd, Prometheus, OpenTelemetry) mientras se proporciona un rendimiento de consultas interactivas sobre exabytes de datos históricos. Las bases de datos tradicionales de nada compartido colapsan bajo el ruido de consultas entre inquilinos, mientras que los silos por inquilino crean una carga operativa prohibitiva. El estricto aislamiento estipula que las consultas del inquilino A no pueden escanear físicamente los datos del inquilino B, sin embargo, los filtros de seguridad a nivel de fila a menudo introducen caídas de rendimiento. Además, almacenar todos los datos en SSD calientes es económicamente imposible, pero mover datos fríos a Amazon S3 Glacier corre el riesgo de violar el SLA de sub-segundos cuando los datos archivados son consultados de repente. El servicio de catálogo, que rastrea particiones y evoluciones del esquema, debe permanecer descentralizado para evitar convertirse en un único punto de falla o un cuello de botella de rendimiento durante la ingestión de alta velocidad.

La solución

Arquitectar un lakehouse en capas utilizando Apache Iceberg como el formato de tabla sobre Amazon S3, Azure Data Lake Storage o Google Cloud Storage. Ingerir flujos a través de Apache Kafka o Amazon Kinesis, procesando a través de Apache Flink o Spark Streaming para ubicar los datos en la capa apropiada: caliente (local NVMe SSD en nodos de consulta), templada (S3 Standard), o fría (S3 Glacier Instant Retrieval). Desplegar Trino o Presto como el motor de consulta distribuido, configurado con Apache Ranger o AWS Lake Formation para políticas de seguridad a nivel de fila y columna que imponen límites de inquilinos a nivel de escaneo. Implementar un catálogo federado usando Hive Metastore federación o AWS Glue con réplicas regionales para evitar cuellos de botella centralizados. El almacenamiento automatizado es impulsado por un analizador de mapas térmicos basado en ML que monitorea los registros de consulta, promoviendo datos fríos accedidos frecuentemente de vuelta a almacenamiento templado y degradando datos calientes obsoletos, mientras se mantienen punteros de metadatos en Iceberg para asegurar la transparencia de consulta a través de las capas.

Situación de la vida real

Ejemplo detallado:

NebulaObservability, un proveedor de SaaS que atiende a 12,000 clientes empresariales, necesitaba reemplazar su envejecido clúster de Elasticsearch que costaba $2M/mes a 8PB de almacenamiento. Cada cliente genera 2-10TB/día de registros y métricas, requiriendo análisis SQL ad-hoc con tiempos de carga de panel sub-segundos. Los requisitos regulatorios exigen un aislamiento estricto donde el Cliente A no puede inferir la existencia de datos del Cliente B a través de ataques de temporización o errores de consulta. La retención de datos se exige durante 13 meses, pero el 95% de las consultas solo afectan las últimas 72 horas. La arquitectura anterior sufría de problemas de "vecino ruidoso" donde una gran consulta de agregación de un cliente degradaba el rendimiento de los demás.

Solución 1: Clústeres de ClickHouse fragmentados

Se consideró el despliegue de vastos clústeres de ClickHouse con fragmentación basada en inquilinos. Entre los pros se incluían un excepcional rendimiento de consultas individuales y un soporte maduro para SQL con ejecución vectorizada. Sin embargo, los contras eran severos: la complejidad operativa de gestionar clústeres a escala de petabytes, la dificultad de imponer seguridad a nivel de fila sin degradación del rendimiento, y la incapacidad de escalar almacenamiento de forma independiente respecto a la computación. Además, re-fragmentar los clústeres de ClickHouse durante la incorporación de inquilinos requería horas de inactividad e intervención manual.

Solución 2: PostgreSQL por inquilino con TimescaleDB

Provisionar instancias aisladas de PostgreSQL con extensiones de TimescaleDB para cada inquilino ofrecía un perfecto aislamiento de seguridad y estrategias de respaldo simples. Los pros eran claros: seguridad nativa a nivel de fila, fácil eliminación de inquilinos para GDPR, y ninguna interferencia entre inquilinos. Sin embargo, los contras hacían que este enfoque fuera imposible: la pesadilla operativa de gestionar 12,000 instancias de bases de datos, los ciclos de parches, y la agotamiento de conexiones. Los costos de almacenamiento se dispararían debido a la falta de compresión en comparación con los formatos columnar, y la analítica cruzada de inquilinos para los propios conocimientos del proveedor se volvía impracticable.

Solución 3: Lakehouse federado con almacenamiento en capas

Implementar el lakehouse basado en Apache Iceberg con Trino y categorización automatizada brindó el equilibrio óptimo. Los pros incluyeron las economías de escala de la infraestructura compartida, el particionamiento oculto de Iceberg que previene errores del usuario, y la escalabilidad infinita de S3. La seguridad a nivel de fila a través de Apache Ranger permitió políticas de granularidad fina sin modificar las consultas. La categorización automática redujo los costos de almacenamiento en un 70% al mover datos fríos a S3 Glacier mientras mantenía los metadatos calientes. Los contras involucraron una complejidad significativa de ajuste: la planificación de consultas requería un cuidado cultivo de particiones, y el algoritmo de categorización necesitaba datos de entrenamiento para evitar el thrashing.

Solución elegida y por qué:

Se seleccionó la Solución 3 porque satisface de manera única el requisito de escala planetaria mientras mantiene un estricto aislamiento. La capacidad del formato Iceberg para actualizar atómicamente los metadatos de las tablas permitió la evolución del esquema sin bloqueos, fundamental para implementaciones sin tiempo de inactividad. La arquitectura de conectores de Trino permitió empujar down predicados a S3, reduciendo los datos escaneados. La categorización automatizada, usando funciones de AWS Lambda activadas por registros de consultas de Athena, garantizó la optimización de costos sin intervención manual. Este enfoque desacopló el almacenamiento de la computación, permitiendo escalado independiente durante picos de tráfico.

Resultado:

El sistema logró una latencia de consulta p99 de 650 ms en 12PB de datos activos, soportando 50,000 consultas concurrentes durante las horas pico. Los costos de almacenamiento se redujeron en un 68% en comparación con la arquitectura anterior de Elasticsearch, ahorrando $1.36M mensuales. La categorización automática predijo correctamente el 94% de los patrones de acceso a datos, con "fallos de caché" a almacenamiento frío ocurriendo solo el 0.3% del tiempo. No se registraron incidentes de seguridad relacionados con filtración de datos entre inquilinos durante los primeros 18 meses de operación, validados a través de pruebas de penetración trimestrales. La incorporación de un nuevo inquilino se convirtió en una operación puramente de metadatos que tomó menos de 30 segundos.

Lo que a menudo pasan por alto los candidatos

¿Cómo previenes explosiones de latencia de consulta cuando el algoritmo de categorización automatizada degrada incorrectamente los datos "templados" que de repente son accedidos por un informe por lotes programado?

Los candidatos a menudo sugieren el almacenamiento en caché reactivo sin considerar el mecanismo de predicción. La respuesta detallada requiere implementar un sistema de categorización predictiva usando suavizado exponencial en registros de acceso a consultas, manteniendo una capa intermedia "templada" en S3 Standard-IA con latencia en milisegundos antes de la degradación a Glacier. Además, desplegar Alluxio como una capa de almacenamiento en caché distribuido entre Trino y S3 absorbe picos de acceso inesperados. El detalle crítico es implementar "promoción al leer": cuando se accede a datos fríos, el sistema los copia de forma asíncrona de vuelta a la capa templada mientras sirve la solicitud actual desde S3 Glacier Instant Retrieval, asegurando que las consultas posteriores se dirijan a un almacenamiento más rápido.

¿Cómo mantienes la consistencia ACID para la evolución del esquema (agregar columnas) a través de miles de tablas de inquilinos sin que un coordinador de transacciones global se convierta en un cuello de botella?

La mayoría de los candidatos proponen bloqueos distribuidos, lo que viola el requisito de "sin cuellos de botella centralizados". El enfoque correcto aprovecha el control de concurrencia optimista de Apache Iceberg y la capa de metadatos. Cada tabla de inquilino tiene un archivo metadata.json independiente de su linaje. Los cambios en el esquema añaden un nuevo archivo de metadatos con un número de secuencia incrementado; el catálogo (por ejemplo, AWS Glue) solo almacena el puntero al archivo de metadatos actual. Durante el compromiso, el escritor verifica si el puntero ha cambiado (conflicto) y vuelve a intentar si es necesario. Esto elimina la necesidad de bloqueos globales porque las tablas de los inquilinos son nombres de espacio independientes. Para raras actualizaciones de esquema entre inquilinos (por ejemplo, agregar una columna universal), utiliza un patrón de saga con operaciones DDL idempotentes en lugar de transacciones atómicas.

¿Cómo arquitectar la capa de seguridad a nivel de fila para evitar que un "super-inquilino" realice un escaneo completo de la tabla que prive de recursos de CPU a otros inquilinos, violando el SLA de sub-segundos?

Los candidatos frecuentemente pasan por alto los mecanismos de gobernanza de recursos. La solución implica un aislamiento jerárquico de recursos utilizando grupos de recursos de Trino con límites rígidos de CPU y cuotas de memoria por clase de inquilino (premium vs. estándar). Implementar control de admisión que estima el costo de la consulta utilizando el optimizador basado en costos de Trino; las consultas que superen los umbrales específicos de inquilinos son encoladas o rechazadas en lugar de ejecutarse. Utiliza cuotas de recursos de Kubernetes para aislar los pods del motor de consulta en grupos de nodos específicos de inquilinos, evitando la privación de CPU. Finalmente, implementa políticas de finalización de consultas de escaneos prolongados que exceden los costos predichos, acopladas con vistas materializadas para agregaciones costosas comúnmente, asegurando que incluso escaneos completos malintencionados o accidentales no puedan impactar la latencia de otros inquilinos.