Respuesta a la pregunta

Historia: Las plataformas de e-commerce tradicionales dependían de instancias monolíticas de RDBMS con bloqueo pesimista, que colapsaban bajo cargas de ventas flash que excedían las 100,000 compras simultáneas por segundo. La industria se inclinó hacia patrones de CQRS y Event Sourcing para desacoplar caminos de lectura y escritura, pero esto introdujo complejidad en el mantenimiento de la precisión del inventario a través de silos distribuidos de WMS y ERP heredados con diferentes características de latencia.

Problema: El desafío principal radica en satisfacer las restricciones del teorema CAP durante las particiones de red mientras se previene la sobreventa, una invariante comercial estricta. Los mecanismos de bloqueo distribuido como RedLock introducen riesgos de latencia y disponibilidad, mientras que los modelos puramente de consistencia eventual arriesgan la venta de inventario fantasma. Además, los puntos de integración heterogéneos con sistemas WMS heredados basados en SOAP/XML crean desajustes de impedancia y cascadas de tiempo de espera que complican los límites de transacción atómica.

Solución: Implementar un Event Store (por ejemplo, Apache Kafka o EventStoreDB) como la fuente de verdad para los deltas de inventario, utilizando control de concurrencia optimista con vectores temporales para establecer el orden causal sin bloqueos globales. Emplear orquestación de Saga (usando Temporal o Camunda) para gestionar transacciones entre WMS, donde las reservas locales se confirman de inmediato en el store de eventos, y la confirmación asincrónica de WMS desencadena la asignación final o liberaciones compensatorias. Para la escalabilidad de lectura, desplegar CQRS con CDC a través de Debezium proyectando en Redis o Elasticsearch, asegurando una latencia de lectura inferior a 50ms mientras se acepta una temporalidad obsoleta mitigada por los TTLs de reserva.

Situación de la vida real

Durante la preparación del Black Friday 2022, un minorista de moda global experimentó tiempos de espera en la base de datos catastróficos cuando 50,000 usuarios concurrentes apuntaron a lanzamientos de zapatillas de edición limitada. Su topología existente de MySQL master-slave sufrió una severa contención de escritura en filas calientes de inventario, resultando en latencias de checkout de 12 segundos y 300 incidentes confirmados de sobreventa provocados por la latencia de replicación entre el primario y las réplicas de lectura. El negocio requería una solución que pudiera absorber tsunamis de tráfico de ventas flash mientras mantenía la invariante estricta de que las unidades vendibles nunca superaran el stock físico del almacén.

El equipo de ingeniería inicialmente propuso implementar algoritmos de Redis RedLock a través de tres zonas de disponibilidad para hacer cumplir la exclusión mutua distribuida durante los decrementos de inventario. Este enfoque ofreció la ventaja de fuertes garantías de consistencia familiares al equipo y una integración sencilla con los clusters de Redis existentes ya utilizados para la gestión de sesiones. Sin embargo, las desventajas críticas incluían picos de latencia inaceptables superiores a 500ms durante fallos en las zonas de disponibilidad y el riesgo teórico de que el desfase de reloj invalidara las propiedades de seguridad de bloqueo, lo que podría potencialmente bloquear la asignación de inventario durante las ventanas críticas de generación de ingresos.

Una estrategia alternativa implicó fragmentar horizontalmente la base de datos por rangos de SKU y emplear protocolos de Compromiso en Dos Fases para mantener garantías ACID a través de instancias regionales de PostgreSQL. Esta solución proporcionó el beneficio de una fuerte consistencia y precisión inmediata del inventario sin complejos patrones de consistencia eventual, adaptándose a mentalidades transaccionales tradicionales. Sin embargo, los inconvenientes resultaron ser prohibitivos: la naturaleza bloqueante del 2PC significaba que los fallos del coordinador podían mantener los bloqueos de la base de datos indefinidamente, y la complejidad del mensaje del protocolo creaba saturación de red durante los picos de tráfico, violando fundamentalmente los requisitos de disponibilidad necesarios para el comercio global 24/7.

La arquitectura final candidata abrazó el Event Sourcing con Apache Kafka y la orquestación de Saga, aceptando las semánticas BASE mientras hacía cumplir las invariantes comerciales a través de transacciones compensatorias. Los pros incluyeron una escalabilidad horizontal inherente a través de flujos de eventos particionables, auditorías inmutables críticas para el análisis de fraude, y la integración natural con sistemas WMS heterogéneos a través de consumidores de eventos idempotentes. Los principales contras involucraron una curva de aprendizaje pronunciada para los desarrolladores no familiarizados con patrones de datos inmutables y la complejidad operativa de gestionar la evolución de los esquemas de eventos y las estrategias de repetición para nuevas proyecciones de modelos de lectura.

El comité de arquitectura seleccionó el enfoque de Event Sourcing porque las ventas flash priorizan fundamentalmente la disponibilidad y la tolerancia a particiones sobre la consistencia inmediata, y la lógica comercial podría acomodar reservas temporales blandas con TTLs de cinco minutos en lugar de bloqueos duros de base de datos. A diferencia de las alternativas de bloqueo, este diseño permitió que el sistema permaneciera disponible durante particiones de red entre centros de datos, asegurando que los clientes pudieran siempre intentar compras incluso si las confirmaciones del almacén experimentaban latencia. Además, el registro de eventos inmutable proporcionó la audibilidad requerida por los equipos de finanzas para reconciliar discrepancias con proveedores de logística de terceros.

La implementación desplegó Kafka Streams para la gestión local de agregados de inventario, Temporal para la orquestación de saga a través de sistemas SAP y WMS personalizados, y Redis con almacenamiento en caché de escritura para la optimización de consultas. Durante el posterior evento de Cyber Monday, la plataforma procesó con éxito 120,000 checkouts concurrentes con latencias p99 por debajo de 80ms y cero incidentes de sobreventa, manteniendo una disponibilidad del 99.99% a pesar de una simulación de fallo regional en us-east-1 que habría paralizado la arquitectura monolítica anterior.

Lo que los candidatos a menudo pasan por alto

¿Cómo previenes el inventario fantasma al procesar reservas concurrentes a través de múltiples particiones de Kafka sin usar bloqueos globales?

El inventario fantasma ocurre cuando comandos concurrentes leen niveles de stock obsoletos de diferentes particiones y ambos confirman reservas que superan la disponibilidad real. Para evitar esto sin bloqueos globales, implementa control de concurrencia optimista utilizando números de versión dentro del Event Store; cada agregado de inventario mantiene un contador monótono, y los comandos incluyen versiones esperadas, siendo el store quien rechaza los apéndices si las versiones no coinciden, forzando reintentos al cliente. Además, asegura la afinidad de particiones al hash de SKUs a particiones específicas, manteniendo semánticas de un solo escritor por agregado y eliminando completamente la coordinación entre particiones.

¿Cuál es la estrategia de transacción compensatoria cuando un punto final WMS SOAP heredado se agota después de que el store de eventos local ya ha confirmado el decremento de stock?

Este escenario representa un fallo parcial donde el estado local diverge de la realidad externa, requiriendo el patrón Saga con recuperación hacia atrás. Cuando el adaptador WMS encuentra un tiempo de espera, publica un evento de tiempo de espera al orquestador de saga, que luego añade un evento Stock_Released para devolver el inventario al pool disponible mientras mantiene claves de idempotencia para evitar la doble asignación en reintentos. Crucialmente, nunca se debe eliminar el evento de decremento original; en su lugar, se deben añadir eventos compensatorios para preservar la historia temporal completa y la pista de auditoría del intento de transacción.

¿Cómo manejas la repetición de eventos y la reconstrucción de modelos de lectura sin exponer conteos de inventario inconsistentes a los clientes durante el proceso de reconstrucción?

Repetir eventos para reconstruir modelos de lectura CQRS arriesga presentar niveles de stock incorrectos transitorios si las proyecciones se actualizan de manera incremental mientras se ejecutan consultas. La solución emplea despliegue azul-verde para modelos de lectura: crea una proyección sombra que consuma el registro de eventos desde el desplazamiento cero mientras la instancia existente atiende tráfico, y luego cambia la ruta de manera atómica cuando la sombra se pone al día. Además, utiliza la compactación de registro de Kafka y instantáneas periódicas de S3 para reducir el tiempo de repetición, asegurando que las nuevas proyecciones minimicen la ventana de potencial inconsistencia durante la reconstrucción.