Odpowiedź na pytanie

Historia pytania

Inicjatywy modernizacji przedsiębiorstw coraz częściej wymagają integracji wieloletnich systemów IBM MQ i TIBCO z Apache Kafka i AWS EventBridge bez przepisania starszych systemów COBOL. Usługi finansowe szczególnie wymagają semantyki dokładnie raz dla komend handlowych, gdzie duplikacja wykonania stanowi istotne ryzyko i naruszenie regulacyjne.

Problem

Starsze busy wiadomości nie mają natywnych prymitywów idempotencji i polegają na jednostkowym porządku FIFO z destrukcyjnymi odczytami, podczas gdy chmurowe strumienie preferują niezmienne dzienniki z odtwarzaniem opartym na offsetach. Niedopasowanie protokołów—sztywne COBOL karty kopii kontra samopiszący Avro—w połączeniu z heterogenicznymi gwarancjami dostawy tworzy wektory utraty lub duplikacji wiadomości podczas skalowania adapterów lub przejściowych podziałów sieci.

Rozwiązanie

Zainstaluj stateless Protocol Adapter kontenery działające na Apache Camel lub Spring Cloud Stream w ramach Kubernetes, aby mediować pomiędzy systemami. Wdrażaj wzorzec Idempotent Consumer używając Redis lub Amazon DynamoDB, aby śledzić przetworzone UUID wiadomości z wygaśnięciem TTL. Wykorzystuj Kafka Transactions z poziomami izolacji read_committed, aby zapewnić atomowe zatwierdzanie offsetów i produkcję wiadomości. Automatycznie skaluj adaptery korzystając z KEDA (Kubernetes Event-driven Autoscaling) w oparciu o metryki głębokości kolejki IBM MQ eksportowane przez Prometheus. Izoluj zatrute wiadomości do Dead Letter Queues (DLQ) wdrożonych w Amazon SQS lub Apache Pulsar w celu zapobiegania blokowaniu głowy linii.

Sytuacja z życia

Bank inwestycyjny klasy premium potrzebował migracji rzeczywistych przepływów wykonania transakcji z mainframe'a z/OS działającego na IBM MQ do AWS MSK (Kafka) bez przestojów. Starszy system publikował wiadomości zakodowane w kopii COBOL, reprezentujące zlecenia kupna/sprzedaży, podczas gdy nowoczesne mikroserwisy Java konsumowały zdarzenia serializowane w Avro. Podczas zmienności rynku, szybkość przesyłu wiadomości wzrosła do 50,000 TPS, powodując, że początkowa implementacja mostu odrzucała wiadomości z powodu niewystarczających rozmiarów buforów TCP i braku przeciwdziałania.

Rozwiązanie 1: Podwójne zapisy z uzgodnieniem. To podejście modyfikuje mainframe, aby jednocześnie pisał do IBM MQ i Apache Kafka, a następnie przeprowadza nocne zadania uzgadniające w celu naprawy rozbieżności. Zaletami są minimalne zmiany w infrastrukturze i szybkie terminy realizacji. Wady to naruszenie semantyki dokładnie raz podczas transakcji dziennych, opóźnienia w uzgadnianiu, które tworzą problemy z audytem regulacyjnym oraz konieczność interwencji ręcznej przy rozwiązywaniu konfliktów, co narusza SLO automatyzacji.

Rozwiązanie 2: Przechowuj i przekaż z transakcjami XA. Zaimplementuj WebSphere MQ jako menedżer zasobów X/Open XA koordynujący z transakcyjnymi producentami Kafka w obrębie granic dwuetapowego zatwierdzenia. Zaletą jest silna spójność dzięki protokołom atomowego zobowiązania. Wady obejmują blokady trwające milisekundy na łączach WAN podczas replikacji międzyregionowej, blokujące zachowania, które naruszają SLO latencji poniżej 100 ms, oraz niekompatybilność sterowników XA z zarządzanymi ofertami Kafka takimi jak AWS MSK.

Rozwiązanie 3: Stateless mosty protokołów z zewnętrzną deduplikacją. Wdrożenie mostów Apache Camel jako wdrożenia Kubernetes, przekształcając COBOL na Avro przy użyciu dynamicznych parserów JRecord z unikalnymi kontrolami UUID w stosunku do DynamoDB przed przesłaniem do Kafka. KEDA skaluj kontenery w oparciu o zgłoszoną przez MQSC głębokość kolejki. Zaletą jest architektura pozioma niezatrzymująca się i dokładnie raz dzięki idempotencji, a nie transakcjom rozproszonym. Wady wymagają dojrzałości operacyjnej w zakresie planowania pojemności DynamoDB i monitorowania tras Camel.

Wybrane rozwiązanie i rezultat. Wybór padł na rozwiązanie 3, aby utrzymać latencję end-to-end poniżej 50 ms. Podczas testu obciążeniowego symulującego wolumen transakcji w Czarny Piątek, system przetworzył 2,5 miliona wiadomości bez duplikacji i strat. Kiedy pojawiły się nieprawidłowe wiadomości (brakujące wymagane pola CUSIP), otworzył się Circuit Breaker (Resilience4j), kierując złe wiadomości do Amazon SQS DLQ, jednocześnie pozwalając na dalszy przepływ legalnych transakcji, zapobiegając katastrofalnemu zatorowi, z którym spotkano się podczas początkowych testów.

Czego często brakuje kandydatom

Jak utrzymujesz semantykę dokładnie raz, gdy starsze MQ nie ma deduplikacji wiadomości, a konsumenci Kafka mogą ponownie przetwarzać wiadomości z powodu niepowodzeń w zatwierdzeniu offsetów?

Kandydaci często sugerują jedynie idempotentnych producentów Kafka, co rozwiązuje tylko problem deduplikacji wewnątrz Kafka, a nie na granicy MQ-do-Kafka. Prawidłowe podejście łączy wzorzec Outbox w systemie źródłowym—gdzie mainframe zapisuje wiadomości do tabeli outbox w swojej bazie danych DB2 w sposób transakcyjny, a następnie łącznik CDC (Change Data Capture) taki jak Debezium przesyła zmiany do Kafka—z magazynem deduplikacyjnym (Redis SETNX lub warunki zapisu w DynamoDB) po stronie konsumenta. Konsument zapisuje UUID w magazynie atomowo z realizacją logiki biznesowej przy użyciu lokalnych transakcji baz danych, zapewniając idempotencję nawet podczas reorganizacji konsumentów lub ponownego przydzielania partycji.

Jak radzić sobie z ewolucją schematu kart kopii COBOL bez ponownego wdrażania mostu adaptera protokołu?

Większość kandydatów proponuje statyczne generowanie kodu z kart kopii COBOL przy użyciu narzędzi takich jak CB2XML, co wymaga ponownego wdrożenia przy każdej zmianie schematu. Solidne rozwiązanie wykorzystuje Runtime Schema Resolution: przechowuj definicje kart kopii w Git lub AWS S3, odniesione po identyfikatorze wersji w nagłówkach wiadomości. Trasa Apache Camel używa JRecord z dynamicznym ładowaniem klas do analizy wiadomości na podstawie wersji schematu określonej w nagłówkach. Połącz z ConfigMap Kubernetes lub AWS AppConfig w celu gorącego ładowania w celu odświeżania schematów bez ponownego uruchamiania podów. To rozdziela cykle wydania mainframe'u od kanałów wdrożeniowych chmury.

Jak zapobiec osiągnięciu maksymalnej głębokości kolejki MQ podczas przedłużającej się awarii chmurowego miejsca docelowego, biorąc pod uwagę, że MQ ma ograniczoną pamięć?

Kandydaci często sugerują nieskończone bufrowanie lub rozszerzenie dysku MQ, co jedynie opóźnia nieuchronne. Prawidłowa strategia wdraża Backpressure i Offloading: skonfiguruj IBM MQ Application Message Routing lub MQIPT (MQ Internet Pass-Thru), aby uruchomić alarmy progowe, gdy głębokość kolejki przekracza 80%. Most przestaje odczytywać (stosując przeciwdziałanie) i przełącza się w tryb Store-and-Forward, zapisując nadchodzące wiadomości do Amazon S3 lub Azure Blob Storage jako serializowane pliki. Po przywróceniu łączności kontener Sidecar odtwarza obiekty S3 do Kafka przy użyciu przesyłania wieloczęściowego AWS SDK, opróżniając zadługie bez wyczerpywania dysku MQ lub utraty wiadomości.