Ответ на вопрос

История вопроса

Эволюция от монолитных архитектур к микросервисам создала критическую необходимость в стратегиях инкрементальной миграции. Организациям не позволительно роскошество полной остановки мира во время миграции, особенно тем, кто работает на крупномасштабных системах устаревших Oracle или SQL Server. Этот вопрос возник из реальных сценариев, когда предприятиям нужно было модернизироваться, не жертвуя годами исторической целостности данных и не принимая окна обслуживания, которые длились бы часами.

Проблема

Основная проблема заключается в несовпадении импедансов между монолитными ACID-транзакциями, охватывающими несколько доменов, и распределенным характером микросервисов. При разбиении базы данных вы сталкиваетесь со сценарием раздельного мозга, когда обновления происходят как в устаревшей системе, так и в новых сервисах одновременно. Поддержание ссылочной целостности через сетевые границы, при этом сохраняя обе системы в рабочем состоянии, создает проблему распределенного консенсуса, которую нельзя решить простым реплицированием базы данных.

Решение

Реализовать архитектуру, основанную на событиях, используя Change Data Capture (CDC) с Outbox Pattern, чтобы обеспечить надежную публикацию событий. Д部署 Debezium коннекторы для улавливания изменений на уровне строк из журнала транзакций устаревшей базы данных, стриминг событий в Apache Kafka как центральную нервную систему. Параллельно реализовать Saga Pattern на уровне микросервисов для обработки распределенных транзакций, обеспечивая конечную согласованность, сохраняя при этом операционную автономию каждого сервиса.

Ситуация из жизни

Платформа электронной коммерции из списка Fortune 500 нуждалась в миграции своей системы управления заказами с десятилетнего монолита Oracle на микросервисы, основанные на PostgreSQL. Модули инвентаря, ценообразования и выполнения заказов были тесно связаны с внешними ключами в двенадцати основных таблицах. В праздничные сезоны система обрабатывала 50,000 транзакций в минуту с нулевой толерантностью к потере данных или простоям.

Решение A: Стратегия двойной записи

Инженерная команда первоначально рассматривала возможность изменения кода устаревшего приложения, чтобы одновременно записывать данные как в Oracle, так и в новые сервисы PostgreSQL. Этот подход обещал простоту, сохраняя записи синхронными и последовательными. Однако он ввел катастрофические риски связности — если новый сервис испытывал задержки или сбои, вся устаревшая система могла бы выйти из строя. Более того, реализация распределенных транзакций через XA protocol значительно ухудшила бы производительность, потенциально увеличивая время отклика на 400% в пиковой нагрузке.

Решение B: Триггеры и представления базы данных

Другой вариант заключался в создании триггеров базы данных в Oracle, которые бы вызывали REST-эндпоинты непосредственно при изменениях строк. Это казалось привлекательным, поскольку не требовало изменений в приложении. Однако это создало бы тесную связь между инфраструктурой базы данных и сетевой топологией, делая систему хрупкой. Если эндпоинт микросервиса был бы недоступен, триггер бы сработал с ошибкой, что привело бы к отмене всей транзакции устаревшего приложения — что нарушит требование о нулевых простоях. Более того, управление миграцией схем стало бы практически невозможным, когда триггеры зависели от конкретных структур столбцов.

Решение C: Change Data Capture с событийным источником

Выбранная архитектура использовала Debezium для мониторинга redo лога Oracle, улавливая каждую вставку, обновление и удаление как неизменяемые события, публикуемые в Apache Kafka. Микросервисы потребляли эти события через Kafka Streams, преобразовывая и сохраняя их в PostgreSQL с использованием Outbox Pattern, чтобы обеспечить семантику exactly-once. Schema Registry, управляемый Confluent, обеспечивал обратную и прямую совместимость с использованием схем Avro. Это отделило устаревшую систему от сложности миграции — Oracle оставался неосведомленным о новой архитектуре, в то время как сервисы потребляли события в своем собственном темпе.

Выбранное решение и его обоснование

Команда выбрала решение C, поскольку оно соблюдало Принцип единственной ответственности и обеспечивало изоляцию неисправностей. В отличие от двойных записей, производительность устаревшей системы не пострадала от задержки микросервиса. В отличие от триггеров, Debezium работал асинхронно, не блокируя транзакции. Журнал событий предоставлял неизменяемую историю аудита, а политики хранения Kafka позволяли воспроизводить исторические данные, если микросервисы нуждались в повторной обработке во время эволюции схемы.

Результат

После восемь месяцев миграции платформа успешно переместила 200TB транзакционных данных с 99.97% времени безотказной работы. Система обрабатывала трафик Черной пятницы с задержкой на 40% ниже, чем в предыдущем году. Когда была обнаружена ошибка в расчете цен в новых сервисах, команда воспроизвела три дня событий из Kafka без вмешательства в систему устаревшей Oracle, исправляя 2.3 миллиона записей без простоя. Теперь конвейер CDC служит основой для аналитики в реальном времени с использованием Apache Flink.

Что часто упускают кандидаты

Как вы обрабатываете эволюцию схемы, когда монолит изменяет структуру своей таблицы, пока микросервисы потребляют события CDC?

Кандидаты часто предлагают замораживать схему во время миграции, что непрактично для гибких компаний. Правильный подход заключается в реализации Confluent Schema Registry с использованием схем Avro в режимах обратной и прямой совместимости. Когда таблицы Oracle меняются, коннектор Debezium публикует события с обновленными схемами, но реестр обеспечивает соблюдение правил совместимости. Сервисы должны реализовать паттерн Schema-on-Read с использованием правил разрешения Apache Avro — игнорируя неизвестные поля и используя значения по умолчанию для отсутствующих. Кроме того, разверните паттерн CQRS, где модели чтения могут развиваться независимо от исходной схемы, используя трансформаторы Kafka Connect для упрощения вложенных структур перед их достижением конечных точек потребления.

Что происходит, когда обе системы одновременно обновляют один и тот же объект в переходный период?

Это создает сценарий раздельного мозга, который простые временные метки не могут разрешить. Архитекторы должны реализовать Векторные часы или CRDT (Конфликтно-свободные реплицированные типы данных) для детерминированного разрешения конфликтов. Разверните компонент Би-направленной синхронизации, который будет потреблять события микросервиса и записывать обратно в Oracle с использованием Kafka Connect JDBC Sink, но с строгими семантиками Last-Write-Wins (LWW) на основе гибридных логических часов.

Более важно, реализуйте границы Доменного проектирования — во время миграции назначьте единственное право на запись либо монолиту, либо микросервису на каждый корень агрегата, никогда не обоим. Используйте Database Flags в Oracle, чтобы указать состояние миграции, перенаправляя запись через API Gateway с использованием паттерна Strangler Fig.

Опишите паттерн для обеспечения транзакционной целостности, когда бизнес-операция охватывает как устаревшую базу данных, так и новые микросервисы.

Большинство кандидатов неверно предполагают использование распределенных транзакций с Двухфазным подтверждением (2PC) через разнородные системы, что создает хрупкую связанность и проблемы доступности. Правильное решение использует Saga Pattern с Компенсирующими транзакциями. Когда пользовательское действие требует обновления как Oracle (устаревший), так и PostgreSQL (новый), организуйте это через Saga Orchestrator, созданный на основе Camunda или Temporal. Процесс выполняет локальные транзакции последовательно: сначала обновляется Oracle, затем публикуется событие домена, затем выполняется операция микросервиса. Если какой-либо шаг завершится неудачей, выполняются компенсирующие транзакции — если подтверждение микросервиса завершается неудачей, запускается событие отката, которое устаревшая система потребляет, чтобы отменить изменение Oracle. Это поддерживает конечную согласованность, не блокируя ресурсы через сетевые границы.