Antwort auf die Frage

Geschichte der Frage

Der Übergang von monolithischen Architekturen zu Microservices hat einen kritischen Bedarf an schrittweisen Migrationsstrategien geschaffen. Organisationen können sich den Luxus einer vollständigen Migration, bei der alles gestoppt wird, nicht leisten, insbesondere solche, die mit Oracle oder SQL Server-Legacy-Systemen arbeiten. Diese Frage entstand aus realen Szenarien, in denen Unternehmen modernisieren mussten, ohne die Integrität jahrzehntelanger historischer Daten zu opfern oder Wartungsfenster von mehreren Stunden zu akzeptieren.

Das Problem

Die zentrale Herausforderung liegt im Impedanz-Mismatch zwischen monolithischen ACID-Transaktionen, die mehrere Domänen umfassen, und der verteilten Natur von Microservices. Wenn Sie eine Datenbank aufteilen, stehen Sie vor dem „Split-Brain“-Szenario, bei dem Aktualisierungen gleichzeitig im Legacy-System und in den neuen Diensten erfolgen. Die Aufrechterhaltung der referenziellen Integrität über Netzwerkgrenzen hinweg, während beide Systeme betriebsbereit bleiben, schafft ein Problem der verteilten Konsensbildung, das sich nicht durch einfache Datenbankreplikation lösen lässt.

Die Lösung

Implementieren Sie eine Ereignisgesteuerte Architektur unter Verwendung von Change Data Capture (CDC) mit einem Outbox-Muster, um eine zuverlässige Ereignisveröffentlichung sicherzustellen. Setzen Sie Debezium-Connectoren ein, um zeilenweise Änderungen aus dem Transaktionsprotokoll der Legacy-Datenbank zu erfassen und Ereignisse an Apache Kafka als das zentrale Nervensystem zu streamen. Gleichzeitig implementieren Sie das Saga-Muster in der Microservices-Schicht, um verteilte Transaktionen zu handhaben und dabei die endgültige Konsistenz zu gewährleisten, während die operative Autonomie jedes Dienstes gewahrt bleibt.

Situation aus dem Leben

Eine Fortune 500 E-Commerce-Plattform musste ihr Auftragsverwaltungssystem von einem jahrzehntealten Oracle-Monolithen auf Microservices auf Basis von PostgreSQL migrieren. Die Module für Bestandsverwaltung, Preisgestaltung und Auftragsabwicklung waren eng mit Fremdschlüsselbeschränkungen über zwölf Haupttabellen verbunden. In der Ferienzeit bearbeitete das System 50.000 Transaktionen pro Minute mit null Toleranz für Datenverlust oder Ausfallzeiten.

Lösung A: Dual Write Strategie

Das Engineering-Team erwog zunächst, den Legacy-Anwendungscode zu ändern, um gleichzeitig in Oracle und die neuen PostgreSQL-Dienste zu schreiben. Dieser Ansatz versprach Einfachheit, indem er Schreiben synchron und konsistent hielt. Er führte jedoch zu katastrophalen Kopplungsrisiken – wenn der neue Dienst Latenz oder Ausfälle erlebte, würde das gesamte Legacy-System abstürzen. Darüber hinaus würde die Implementierung verteilter Transaktionen über das XA-Protokoll die Leistung erheblich beeinträchtigen und potenziell die Antwortzeiten während der Hauptlast um 400 % erhöhen.

Lösung B: Datenbank-Trigger und -Sichten

Eine weitere Option bestand darin, Datenbank-Trigger in Oracle zu erstellen, die REST-Endpunkte direkt bei Zeilenänderungen aufriefen. Das schien attraktiv zu sein, da keine Änderungen an der Anwendung erforderlich waren. Doch das führte zu einer engen Kopplung zwischen der Datenbankinfrastruktur und der Netzwerktopologie, wodurch das System fragil wurde. Wenn der Microservice-Endpunkt nicht erreichbar war, würde der Trigger fehlschlagen, was zu einem Rollback der gesamten Legacy-Transaktion führte – ein Verstoß gegen die Anforderung der Zero-Downtime. Darüber hinaus wurde die Verwaltung von Schema-Migrationen nahezu unmöglich, wenn Trigger von spezifischen Spaltenstrukturen abhingen.

Lösung C: Change Data Capture mit Event Sourcing

Die gewählte Architektur nutzte Debezium, um das Redo-Protokoll von Oracle zu überwachen und jeden Insert, Update und Delete als unveränderliche Ereignisse zu erfassen, die an Apache Kafka veröffentlicht wurden. Die Microservices konsumierten diese Ereignisse über Kafka Streams, transformierten und speicherten sie in PostgreSQL unter Verwendung des Outbox-Musters, um genau-einmal Semantik zu gewährleisten. Ein Schema-Registry, verwaltet von Confluent, stellte Rückwärts- und Vorwärtskompatibilität mit Avro-Schemas sicher. Dies entkoppelte das Legacy-System von der Migrationskomplexität – Oracle blieb ahnungslos gegenüber der neuen Architektur, während die Dienste Ereignisse in ihrem eigenen Tempo konsumierten.

Gewählte Lösung und Begründung

Das Team wählte Lösung C, weil sie das Single Responsibility Principle respektierte und Fehlertoleranz bot. Im Gegensatz zu dualen Schreibvorgängen blieb die Leistung des Legacy-Systems von der Latenz der Microservices unberührt. Im Vergleich zu Triggern arbeitete Debezium asynchron, ohne Transaktionen zu blockieren. Das Ereignisprotokoll bot eine unveränderliche Prüfspur, und die Aufbewahrungsrichtlinien von Kafka ermöglichten das erneute Abspielen historischer Daten, wenn Microservices eine erneute Verarbeitung während der Schema-Evolution benötigten.

Ergebnis

Nach einer achtmonatigen Migration konnte die Plattform erfolgreich 200TB an Transaktionsdaten mit 99,97 % Betriebszeit übertragen. Das System bewältigte den Black Friday-Verkehr mit einer um 40 % niedrigeren Latenz als im Vorjahr. Als ein Preisberechnungsfehler in den neuen Diensten entdeckt wurde, spielte das Team drei Tage lang Ereignisse von Kafka erneut ab, ohne das Legacy-Oracle-System zu berühren, und korrigierte 2,3 Millionen Datensätze ohne Ausfallzeiten. Die CDC-Pipeline dient jetzt als Rückgrat für Echtzeitanalysen mit Apache Flink.

Was Kandidaten oft übersehen

Wie gehen Sie mit der Schema-Evolution um, wenn sich der Monolith in seiner Tabellenstruktur ändert, während Microservices CDC-Ereignisse konsumieren?

Kandidaten schlagen oft vor, das Schema während der Migration einzufrieren, was für agile Unternehmen unpraktisch ist. Der richtige Ansatz besteht darin, das Confluent Schema Registry mit Avro-Schemas zu implementieren, die Rückwärts- und Vorwärtskompatibilitätsmodi verwenden. Wenn Oracle-Tabellen geändert werden, veröffentlicht der Debezium-Connector Ereignisse mit aktualisierten Schemata, aber das Registry erzwingt Kompatibilitätsregeln. Die Dienste sollten das Schema-on-Read-Muster unter Verwendung der Auflösungsregeln von Apache Avro implementieren – unbekannte Felder ignorieren und Standardwerte für fehlende verwenden. Darüber hinaus sollte ein CQRS-Muster eingesetzt werden, bei dem sich Lese-Modelle unabhängig vom Quell-Schema entwickeln können, wobei Kafka Connect-Transformatoren eingesetzt werden, um verschachtelte Strukturen abzubauen, bevor sie die Verbrauchs-Endpunkte erreichen.

Was passiert, wenn beide Systeme während der Übergangszeit gleichzeitig dasselbe Entity aktualisieren?

Dies schafft ein Split-Brain-Szenario, das einfache Zeitstempel nicht lösen können. Architekten müssen Vector Clocks oder CRDTs (Conflict-free Replicated Data Types) für deterministische Konfliktlösungen implementieren. Setzen Sie eine Bi-Directional Sync-Komponente ein, die Ereignisse von Microservices konsumiert und zurück nach Oracle schreibt über Kafka Connect JDBC Sink, jedoch mit strengen Last-Write-Wins (LWW)-Semantiken basierend auf hybriden logischen Uhren.

Wichtiger ist die Implementierung von Domain-Driven Design-Grenzen – während der Migration wird die alleinige Schreibberechtigung entweder dem Monolithen oder dem Microservice pro Aggregate Root zugewiesen, niemals beiden. Verwenden Sie Datenbank-Flags in Oracle, um den Migrationsstatus anzuzeigen und den Schreibverkehr entsprechend über ein API Gateway zu leiten, das das Strangler Fig Pattern verwendet.

Beschreiben Sie das Muster zur Gewährleistung der Transaktionsintegrität, wenn ein Geschäftsvorgang sowohl die Legacy-Datenbank als auch die neuen Microservices umfasst.

Die meisten Kandidaten schlagen fälschlicherweise verteilte Transaktionen unter Verwendung des Two-Phase Commit (2PC) über heterogene Systeme vor, was eine fragile Kopplung und Verfügbarkeitsprobleme verursacht. Die richtige Lösung verwendet das Saga-Muster mit Compensating Transactions. Wenn eine Benutzeraktion Aktualisierungen sowohl für Oracle (legacy) als auch für PostgreSQL (neu) erfordert, orchestrieren Sie dies über einen Saga Orchestrator, der auf Camunda oder Temporal basiert. Der Prozess führt lokale Transaktionen sequenziell aus: Zuerst Oracle aktualisieren, dann ein Domänenereignis veröffentlichen und dann die Microservice-Operation ausführen. Wenn ein Schritt fehlschlägt, führen Sie komplementäre Transaktionen aus – wenn der Commit des Microservices fehlschlägt, lösen Sie ein Rollback-Ereignis aus, das das Legacy-System konsumiert, um die Oracle-Änderung rückgängig zu machen. Dies gewährleistet eine endgültige Konsistenz, ohne Ressourcen über Netzwerkgrenzen hinweg zu sperren.