Réponse à la question

Le cadre de validation repose sur la conciliation de la nature immuable et uniquement ajoutée de sourcing d'événements avec les contraintes mécaniques de la livraison au moins une fois et la latence des systèmes légataires. Vous devez établir des garanties d'idempotence au niveau de l'application plutôt que de compter sur les sémantiques de livraison de l'infrastructure, en veillant à ce que les messages Kafka dupliqués produisent des entrées de magasin d'événements identiques sans effets secondaires. L'architecture découple le chemin de trading à grande vitesse du rapport de conformité en utilisant des modèles de lecture CQRS optimisés pour la vitesse tout en employant une Capture de Données de Changement (CDC) asynchrone pour hydrater le référentiel d'audit Oracle légataire sans bloquer le chemin critique.

Situation de la vie

Une société de trading quantitatif migrerait d'une plateforme Java EE monolithique vers des microservices Spring Boot a rencontré exactement ce dilemme. Le domaine nécessitait de suivre chaque modification de commande — mises à jour de prix, annulations, exécutions — en tant qu'événements immuables pour satisfaire aux exigences de la piste de vérification de la règle 17a-4(b) de la SEC. Cependant, leur cluster Kafka était configuré pour une livraison au moins une fois afin de privilégier la disponibilité, ce qui entraînait une logique de nouvelle tentative des consommateurs générant des événements de trade dupliqués qui corrompaient les calculs de position. Dans le même temps, le tableau de bord de gestion des risques, interrogeant le modèle de lecture pour les calculs d'exposition en temps réel, subissait des pics de latence de 300 ms parce que le système tentait des écritures synchrones dans la base de données de conformité Oracle 12c via des ponts ODBC sur un réseau d'entreprise encombré, violant le seuil de risque de 50 ms dans des conditions de marché volatiles.

Solution 1 : Activer les sémantiques exactement une fois dans Kafka

L'équipe a envisagé de reconfigurer Kafka pour utiliser le traitement exactement une fois (EOS) avec des identifiants transactionnels et des producteurs idempotents. Cette approche éliminerait les duplications au niveau du protocole en veillant à ce que chaque message soit engagé de manière atomique avec les décalages des consommateurs. Les avantages incluaient une gestion native des duplications sans modifications de code applicatif et le maintien de garanties strictes d'ordre au sein des partitions. Cependant, les inconvénients s'étaient avérés prohibitifs : la surcharge de coordination transactionnelle ajoutait 18-25 ms de latence par message, et la dépendance à ZooKeeper introduisait un point de défaillance unique pouvant bloquer le pipeline de trading lors de l'élection du coordinateur. De plus, cela ne résolvait pas le goulet d'étranglement fondamental des ODBC Oracle, déplaçant simplement la complexité de dé-duplication en amont.

Solution 2 : Déployer Cassandra comme une mémoire tampon chaude intermédiaire

Une alternative proposée consistait à insérer un cluster Cassandra entre Kafka et Oracle pour agir comme un tampon à haute vitesse. Apache Spark Streaming effectuerait une déduplication fenêtrée sur le flux Cassandra avant de grouper les écritures vers Oracle durant la nuit. Les avantages comprenaient la capacité de Cassandra à gérer un haut débit d'écriture avec une latence milliseconde et le découplage du traitement en temps réel du stockage de conformité. Cependant, les inconvénients introduisaient un risque opérationnel significatif : maintenir deux systèmes de stockage disparates créait des scénarios de cerveau partagé lors des partitions de réseau, et les auditeurs de la SEC exprimaient des doutes quant à la capacité du magasin mutable intermédiaire à servir de source de vérité pour des pistes d'audit immuables. La complexité d'assurer les propriétés ACID à travers la couche de persistance polyglotte menaçait le calendrier du projet.

Solution 3 : Idempotence côté client avec des modèles de lecture Redis et Debezium CDC

La solution choisie a mis en œuvre l'idempotence côté client en utilisant des clés naturelles composites (ID agrégé + numéro de séquence) au sein des gestionnaires d'événements, s'assurant que les messages Kafka dupliqués étaient reconnus et rejetés sans mutation d'état. Pour satisfaire à la exigence de latence, l'équipe a déployé des clusters Redis co-localisés avec chaque microservice pour matérialiser des modèles de lecture utilisant des projections d'événements, atteignant des temps de réponse de requête inférieurs à 10 ms pour les calculs de risque. Pour satisfaire aux exigences de conformité Oracle sans impact sur les performances, ils ont mis en œuvre Debezium pour capturer les changements du magasin d'événements de la base de données PostgreSQL de support et les diffuser de manière asynchrone vers Oracle, acceptant la cohérence éventuelle pour les rapports d'audit tout en maintenant une forte cohérence pour les opérations de trading.

Cette approche a réussi parce qu'elle a traité le risque d'événements dupliqués par la logique d'application plutôt que par des contraintes d'infrastructure, a respecté le SLA de latence agressif via une mise en cache en mémoire sans sacrifier l'intégrité des audits, et a respecté l'investissement légataire Oracle en le découplant du chemin critique en temps réel. Le résultat était un système traitant 150 000 événements par seconde avec une latence de lecture moyenne de 12 ms, zéro trade dupliqué détecté sur six mois d'exploitation, et une vérification complète de la conformité SEC passée sans constatations concernant l'immuabilité ou la traçabilité des données.

Ce que les candidats manquent souvent

Comment maintenez-vous l'ordre des événements à travers des agrégats distribués dans un système alimenté par des événements lorsque des partitions réseau se produisent ?

Les candidats supposent souvent à tort que l'ordre global est nécessaire ou réalisable, ce qui conduit à des goulets d'étranglement architecturaux. Dans le sourcing d'événements distribué, l'ordre doit être strictement limité au niveau de la racine de l'agrégat, pas globalement à travers le système. Vous devez mettre en œuvre des horloges vectorielles ou des numéros de séquence monotoniques logiques au sein de chaque flux d'agrégat pour établir la causalité. Les partitions Kafka doivent s'aligner un à un avec les frontières des agrégats pour tirer parti des garanties d'ordre en partition de la plateforme. Lors des partitions réseau, le système devrait accepter une incohérence temporaire entre différents agrégats (cohérence éventuelle) tout en assurant une cohérence stricte au sein de chaque agrégat à l'aide d'un contrôle de concurrence optimiste avec des vérifications de version, empêchant les mises à jour perdues sans nécessiter des verrous distribués.

Quelle est la distinction architecturale entre le sourcing d'événements et le simple usage de la Capture de Données de Changement (CDC) pour les pistes d'audit ?

De nombreux candidats convolent ces modèles, suggérant que la CDC à elle seule satisfait les exigences d'audit. La CDC capture les mutations d'état au niveau de la base de données (par exemple, "la ligne 42 mise à jour de A à B"), tandis que le sourcing d'événements capture l'intention de domaine sous forme d'événements d'entreprise (par exemple, "ClientPasséAuNiveauPremium" avec des métadonnées contextuelles) avant les modifications d'état. Pour la conformité à la SEC, le sourcing d'événements fournit de meilleures capacités d'audit car il préserve la rationalité commerciale et le contexte décisionnel, pas seulement les changements de données mécaniques. Lors de la reconstruction d'une décision de trading pour les régulateurs, les événements de domaine révèlent pourquoi une commande a été modifiée, tandis que les journaux de CDC montrent seulement qu'une modification a eu lieu. Le magasin d'événements sert de système d'enregistrement, tandis que la CDC est un mécanisme de synchronisation.

Comment gérez-vous les demandes de l'Article 17 du RGPD (Droit à l'effacement) au sein d'un magasin d'événements immuable qui doit également satisfaire aux mandats de conservation de la SEC ?

Cela représente le conflit fondamental entre l'immuabilité et les réglementations de confidentialité. Les candidats suggèrent souvent à tort de supprimer physiquement des événements ou d'utiliser des outils de censure, tous deux violant l'intégrité de la piste d'audit. L'approche correcte utilise l'effacement cryptographique : crypter les informations personnelles identifiables (PII) dans les charges utiles des événements en utilisant des clés de chiffrement des données stockées dans un service de gestion des clés (KMS) distinct. Lorsqu'une demande d'effacement se produit, supprimez la clé de chiffrement plutôt que les données de l'événement, rendant la PII définitivement illisible tout en préservant la structure de l'événement et les transitions d'état agrégées requises par les réglementations de la SEC. En alternative, mettez en œuvre des événements compensatoires qui remplacent les champs sensibles par des valeurs de pierre tombale dans les flux suivants, maintenant l'historique immuable tout en veillant à ce que les projections actuelles ne contiennent aucune donnée personnelle récupérable.