Ответ на вопрос

Структура валидации сосредоточена на согласовании неизменяемой, добавляемой только природе event sourcing с механическими ограничениями по крайней мере один раз доставки и задержкой устаревшей системы. Необходимо установить гарантии идемпотентности на уровне приложения, а не полагаться на семантику доставки инфраструктуры, что позволит убедиться, что дублирующие сообщения Kafka производят идентичные записи в хранилище событий без побочных эффектов. Архитектура отделяет путь высокоскоростной торговли от отчетности по соблюдению правил, используя модели чтения CQRS, оптимизированные для скорости, и применяя асинхронное захватывание изменений (CDC), чтобы заполнять устаревшее хранилище аудита Oracle без блокировок критичного пути.

Ситуация из жизни

Количественная торговая компания, мигрирующая с монолитной платформы Java EE на Spring Boot микросервисы, столкнулась именно с этой дилеммой. Доменом требовалось отслеживание каждого изменения заказа — изменения цен, отмены, исполнения — как неизменяемых событий для соблюдения требований SEC Правила 17a-4(b) по ведению аудиторских следов. Однако их кластер Kafka был настроен на по крайней мере один раз доставку с целью приоритета доступности, что приводило к тому, что логика повторной попытки потребителя генерировала дублирующие события торговли, которые искажали расчеты по позициям. Параллельно, панель управления управления рисками, запрашивающая модель чтения для расчета текущей экспозиции, испытывала всплески задержек в 300 мс, так как система пыталась синхронно записывать данные в базу данных для соблюдения норм Oracle 12c через мосты ODBC по перегруженной корпоративной сети, нарушая порог риска в 50 мс в условиях нестабильного рынка.

Решение 1: Включить семантику точно-один раз в Kafka

Команда рассматривала возможность повторной настройки Kafka для использования обработки точно-один раз (EOS) с использованием транзакционных идентификаторов и идемпотентных производителей. Этот подход устранил бы дублирования на уровне протокола, обеспечивая, чтобы каждое сообщение фиксировалось атомарно с потребительскими смещениями. К преимуществам относились нативная обработка дубликатов без изменений в коде приложения и поддержание строгих гарантий порядка внутри разделов. Однако недостатки оказались слишком обременительными: накладные расходы на транзакционную координацию добавили 18-25 мс задержки на сообщение, а зависимость от ZooKeeper ввела единую точку отказа, что могло замедлить торговый конвейер во время выборов координатора. Кроме того, это не решало основные узкие места Oracle ODBC, лишь перемещая сложность устранения дубликатов вверх по цепочке.

Решение 2: Разверните Cassandra как промежуточное горячее хранилище

В качестве альтернативы предложили вставить кластер Cassandra между Kafka и Oracle, чтобы он действовал как высокоскоростной буфер. Apache Spark Streaming выполнял бы оконную дедупликацию в стриме Cassandra перед пакетными записями в Oracle каждую ночь. Преимущества включали способность Cassandra обрабатывать высокий уровень записи с миллисекундной задержкой и отделение обработки в реальном времени от хранения для соблюдения норм. Однако недостатки представили значительный операционный риск: поддержка двух разных систем хранения создавала сценарии разделения разума во время сетевых разделов, и аудиторы SEC выразили скептицизм относительно возможности промежуточного изменяемого хранилища служить источником истины для неизменяемых аудиторских следов. Сложность обеспечения свойств ACID в полиглотном слое хранения угрожала срокам проекта.

Решение 3: Идемпотентность на стороне клиента с моделями чтения Redis и Debezium CDC

Выбранное решение реализовало идемпотентность на стороне клиента с использованием составных естественных ключей (идентификатор агрегата + номер последовательности) в обработчиках событий, обеспечивая распознавание и отбрасывание дублирующих сообщений Kafka без изменения состояния. Для удовлетворения требований к задержке команда развернула кластеры Redis, расположенные рядом с каждым микросервисом, чтобы материализовать модели чтения, используя проекции событий, достигая времени ответа на запросы менее 10 мс для расчетов по рискам. Чтобы удовлетворить требования по соблюдению норм Oracle, не влияя на производительность, они внедрили Debezium для захвата изменений из хранилища событий, основываясь на базе данных PostgreSQL и потока их асинхронно в Oracle, принимая конечную согласованность для отчетности по аудиту, сохраняя при этом сильную согласованность для торговых операций.

Этот подход оказался успешным, поскольку он решал риск дублирования событий через логику приложения, а не ограничения инфраструктуры, соответствовал жесткому SLA по задержке через кеширование в памяти без ущерба для целостности аудита и учитывал инвестиции в устаревший Oracle, отделяя его от критичного пути в реальном времени. Результатом стала система, обрабатывающая 150 000 событий в секунду со средней задержкой чтения в 12 мс, не зафиксировано дублирующих сделок за шесть месяцев работы, и полная проверка на соответствие требованиям SEC прошла без замечаний касательно неизменяемости или отслеживаемости данных.

Что кандидаты часто упускают

Как вы обеспечиваете порядок событий в распределенных агрегатах в системе, основанной на событиях, когда происходят сетевые разделы?

Кандидаты зачастую предполагают, что глобальный порядок необходим или достижим, что приводит к архитектурным узким местам. В распределенном event sourcing порядок должен быть строго ограничен уровнем корневого агрегата, а не глобально по всей системе. Необходимо реализовать векторные часы или логические монотонные номера последовательности внутри каждого агрегатного потока, чтобы установить причинно-следственные связи. Разделы Kafka должны соответствовать один-к-одному границам агрегатов, чтобы использовать гарантии порядка внутри раздела платформы. Во время сетевых разделов система должна принимать временную несогласованность между различными агрегатами (конечная согласованность), обеспечивая при этом строгую согласованность внутри каждого агрегата с помощью оптимистичного контроля согласованности с проверками версии, предотвращая потерю обновлений без необходимости в распределенных блокировках.

Каково архитектурное различие между event sourcing и простым использованием Change Data Capture (CDC) для аудиторских следов?

Многие кандидаты смешивают эти паттерны, предполагая, что CDC в одиночку удовлетворяет требованиям по аудиту. CDC захватывает изменения состояния на уровне базы данных (например, "строка 42 обновлена с A на B"), тогда как event sourcing захватывает намерения домена как бизнес-события (например, "CustomerUpgradedToPremiumTier" с контекстными метаданными) до того, как произойдут изменения состояния. Для соблюдения норм SEC event sourcing обеспечивает более высокие аудиторские возможности, поскольку сохраняет бизнес-аргументацию и контекст принятия решений, а не только механические изменения данных. При восстановлении решения для регуляторов, доменные события раскрывают, почему был изменен заказ, в то время как CDC фиксирует только факт изменения. Хранилище событий служит системой записи, тогда как CDC является механизмом синхронизации.

Как вы обрабатываете запросы статьи 17 GDPR (право на удаление) в неизменяемом хранилище событий, которое также должно соблюдать требования к сохранению SEC?

Это представляет собой фундаментальный конфликт между неизменяемостью и нормативными требованиями по защите конфиденциальности. Кандидаты часто неверно предполагают физическое удаление событий или использование редактирования, что нарушает целостность аудиторских следов. Правильный подход использует криптографическое уничтожение: шифрование персонально идентифицируемой информации (PII) внутри полезных нагрузок событий с использованием ключей шифрования данных, хранящихся в отдельной службе управления ключами (KMS). Когда происходит запрос на удаление, удаляется ключ шифрования, а не данные события, что делает PII постоянно нечитаемым, сохраняя при этом структуру события и переходы состояния агрегата, требуемые регулирующими органами SEC. В качестве альтернативы реализуйте компенсирующие события, которые перезаписывают чувствительные поля значениями памятной доски в последующих потоках, сохраняя неизменяемую историю, обеспечивая при этом, чтобы текущие проекции не содержали восстановимых персональных данных.