Respuesta a la pregunta

Historia de la pregunta

Las iniciativas de modernización empresarial requieren cada vez más integrar la infraestructura de IBM MQ y TIBCO de décadas de antigüedad con Apache Kafka y AWS EventBridge sin reescribir los mainframes heredados en COBOL. Los servicios financieros específicamente demandan semánticas de exactamente una vez para comandos de negociación donde la ejecución duplicada constituye un riesgo material y una violación regulatoria.

El problema

Los buses de mensajería heredados carecen de primitivas de idempotencia nativas y dependen de un ordenamiento FIFO imperativo con lecturas destructivas, mientras que los flujos nativos de la nube favorecen registros inmutables con reproducciones basadas en offset. La incompatibilidad de protocolo—copias de ancho fijo en COBOL frente a Avro auto-descriptivos—combinada con garantías de entrega heterogéneas crea vectores de pérdida o duplicación de mensajes durante eventos de escalado de adaptadores o particiones transitorias de red.

La solución

Desplegar pods sin estado de Protocol Adapter ejecutando Apache Camel o Spring Cloud Stream dentro de Kubernetes para mediar entre sistemas. Implementar el patrón de Consumidor Idempotente utilizando Redis o Amazon DynamoDB para rastrear UUID de mensajes procesados con expiración TTL. Aprovechar Transacciones de Kafka con niveles de aislamiento read_committed para garantizar compromisos atómicos de offset y producción de mensajes. Escalar automáticamente adaptadores usando KEDA (Autoscaling impulsado por eventos de Kubernetes) basado en métricas de profundidad de cola de IBM MQ exportadas a través de Prometheus. Aislar mensajes dañinos en Colas de Cartas Muertas (DLQ) implementadas en Amazon SQS o Apache Pulsar para prevenir bloqueos de cabeza de línea.

Situación de la vida real

Un banco de inversión de primer nivel necesitaba migrar flujos de ejecución de comercio en tiempo real desde un mainframe z/OS que ejecutaba IBM MQ a AWS MSK (Kafka) sin tiempo de inactividad. El sistema heredado publicaba mensajes codificados en copias de COBOL que representaban órdenes de compra/venta, mientras que los modernos microservicios en Java consumían eventos serializados en Avro. Durante la volatilidad del mercado, las tasas de mensajes aumentaron a 50,000 TPS, lo que provocó que la implementación inicial del puente perdiera mensajes debido a tamaños de búfer TCP insuficientes y a la falta de presión de retroceso.

Solución 1: Escritura dual con reconciliación. Este enfoque modifica el mainframe para escribir tanto en IBM MQ como en Apache Kafka simultáneamente, seguido de trabajos de reconciliación nocturnos para solucionar discrepancias. Los pros incluyen cambios de infraestructura mínimos y cronogramas de implementación rápidos. Los contras incluyen violaciones de las semánticas de exactamente una vez durante operaciones intradía, retrasos en la reconciliación que crean problemas de auditoría regulatoria y requisitos de intervención manual para la resolución de conflictos que violan los SLO de automatización.

Solución 2: Almacenar y reenviar con transacciones XA. Implementar WebSphere MQ como un gestor de recursos X/Open XA coordinándose con productores transaccionales de Kafka a través de límites de compromiso de dos fases. Los pros proporcionan consistencia sólida a través de protocolos de compromiso atómico. Los contras incluyen bloqueos mantenidos durante milisegundos a través de enlaces WAN durante la replicación entre regiones, comportamiento de bloqueo que viola los SLO de latencia de menos de 100 ms y la incompatibilidad del controlador XA con ofertas de Kafka gestionadas como AWS MSK.

Solución 3: Puentes de protocolo sin estado con deduplicación externalizada. Desplegar puentes de Apache Camel como implementaciones de Kubernetes, transformando COBOL a Avro usando analizadores dinámicos de JRecord con verificaciones de UUID únicas contra DynamoDB antes de producir a Kafka. KEDA escala los pods basándose en la profundidad de la cola reportada por comandos MQSC. Los pros incluyen una arquitectura escalable horizontalmente que no bloquea y exactamente una vez mediante idempotencia en lugar de transacciones distribuidas. Los contras requieren madurez operativa para la planificación de capacidad de DynamoDB y monitoreo de rutas de Camel.

Solución elegida y resultado. Se seleccionó la Solución 3 para mantener una latencia de extremo a extremo de menos de 50 ms. Durante una prueba de estrés que simulaba el volumen de comercio del Black Friday, el sistema procesó 2.5 millones de mensajes sin duplicados ni pérdidas. Cuando aparecieron mensajes malformados (faltaban campos obligatorios de CUSIP), el Circuit Breaker (Resilience4j) se abrió, desviando los mensajes dañinos a una DLQ de Amazon SQS mientras permitía que los intercambios legítimos fluyeran, previniendo el respaldo catastrófico experimentado durante las pruebas iniciales.

Lo que a menudo les falta a los candidatos

¿Cómo mantiene las semánticas de exactamente una vez cuando el MQ heredado carece de deduplicación de mensajes y los consumidores de Kafka pueden reprocesar mensajes debido a fallos de compromiso de offset?

Los candidatos a menudo sugieren productores idempotentes de Kafka por sí solos, lo que solo resuelve la deduplicación dentro de Kafka, no a través de la frontera MQ-a-Kafka. El enfoque correcto combina el Patrón Outbox en el sistema fuente—donde el mainframe escribe mensajes en una tabla de buzón dentro de su base de datos DB2 transaccionalmente, luego un conector de CDC (Captura de Datos de Cambios) como Debezium transmite cambios a Kafka—con un almacén de deduplicación (SETNX de Redis o escrituras condicionales de DynamoDB) en el lado del consumidor. El consumidor escribe el UUID en el almacén atómicamente con la ejecución de lógica de negocio utilizando transacciones de base de datos locales, asegurando idempotencia incluso durante reequilibrios de consumidores o reasignaciones de particiones.

¿Cómo maneja la evolución del esquema de la copia COBOL sin volver a implementar el puente del adaptador de protocolo?

La mayoría de los candidatos proponen la generación de código estático a partir de copias de COBOL utilizando herramientas como CB2XML, lo que requiere la redistribución para cada cambio de esquema. Una solución robusta utiliza Resolución de Esquema en Tiempo de Ejecución: almacenar definiciones de copias en Git o AWS S3, referenciadas por ID de versión en los encabezados de mensajes. La ruta de Apache Camel utiliza JRecord con carga de clases dinámica para analizar mensajes según las versiones del esquema especificadas en los encabezados. Combine esto con la actualización en caliente de ConfigMap de Kubernetes o AWS AppConfig para refrescar esquemas sin reinicios de pods. Esto desacopla los ciclos de lanzamiento del mainframe de los pipelines de despliegue en la nube.

¿Cómo evita que la cola heredada de MQ alcance la profundidad máxima durante una interrupción prolongada del destino en la nube, dado que MQ tiene almacenamiento finito?

Los candidatos frecuentemente sugieren almacenamiento infinito o expansión de disco MQ, lo que simplemente retrasa lo inevitable. La estrategia correcta implementa Retroalimentación y Desplazamiento: configure el Direccionamiento de Mensajes de Aplicación de IBM MQ o MQIPT (MQ Internet Pass-Thru) para activar alarmas umbral cuando la profundidad de la cola exceda el 80%. El puente deja de leer (aplicando retroalimentación) y cambia a modo de Almacenar y Reenviar, escribiendo mensajes entrantes en Amazon S3 o Azure Blob Storage como archivos serializados. Una vez restaurada la conectividad, un contenedor Sidecar reproduce objetos de S3 en Kafka utilizando cargas multiparte del AWS SDK, drenando el respaldo sin agotamiento del disco MQ o pérdida de mensajes.