Réponse à la question

Historique de la question

La provenance des événements est apparue comme un modèle critique pour les domaines nécessitant des pistes de contrôle complètes et des capacités de requêtes temporelles. Contrairement aux architectures CRUD traditionnelles, elle stocke les transitions d'état sous forme d'événements immuables dans un stockage en ajoutant uniquement, reconstruisant l'état agrégé par la relecture des événements. Alors que l'adoption s'est accrue dans les systèmes financiers et de santé durant les années 2010, les équipes QA ont découvert que les stratégies de simulation conventionnelles ne parvenaient pas à détecter les problèmes d'intégration entre les agrégats et les magasins d'événements, notamment en ce qui concerne le contrôle de concurrence optimiste et les mécanismes d'optimisation des instantanés.

Le problème

Les tests unitaires traditionnels isolent les agrégats en utilisant des dépôts simulés, contournant complètement les garanties de cohérence du magasin d'événements. Cela manque des modes de défaillance critiques : des ajouts d'événements concurrents entraînant des conflits de version de flux, des instantanés corrompus (optimisations de performances qui mettent en cache l'état agrégé) retournant des données obsolètes, et des transitions d'état illégales qui n'ont lieu que lors de séquences d'événements spécifiques. Sans validation automatisée, ces défauts ne se manifestent qu'en production sous des conditions de concurrence, entraînant une incohérence des données impossible à réconcilier rétroactivement.

La solution

Implémentez un cadre de tests d'intégration utilisant TestContainers pour démarrer de vraies instances de EventStoreDB ou Apache Kafka. Adoptez le modèle Given-When-Then avec des constructeurs d'événements immuables pour construire des scénarios complexes. Utilisez le Test Basé sur les Propriétés (via jqwik ou ScalaCheck) pour générer des séquences d'événements aléatoires et des entrelacs, vérifiant automatiquement que les invariants des agrégats sont respectés indépendamment de l'historique. Injectez des pannes réseau et des latences disque en utilisant Toxiproxy pour valider la restauration des instantanés après des pannes. Affirmez que les agrégats reconstruits à partir des instantanés correspondent à une relecture complète des événements bit pour bit.

@Test
public void shouldMaintainInvariantAfterConcurrentEventAppends() {
    // Given: Agrégat avec instantané à la version 10
    String streamId = "order-" + UUID.randomUUID();
    OrderAggregate aggregate = new OrderAggregate(streamId);
    aggregate.loadFromSnapshot(snapshotAtVersion10);
    
    // When: Simulation d'ajouts concurrents de PaymentProcessed
    List<DomainEvent> concurrentEvents = Arrays.asList(
        new ItemAdded("SKU-123", 2), // v11
        new PaymentProcessed(BigDecimal.valueOf(100.00)) // v12
    );
    
    // Then: Vérifiez l'invariant (ne peut pas payer pour des articles non dans le panier)
    assertThrows(IllegalStateException.class, () -> {
        aggregate.apply(concurrentEvents);
    });
    
    // Vérifiez que la restauration de l'instantané équivaut à une relecture complète
    OrderAggregate fromSnapshot = repository.loadFromSnapshot(streamId);
    OrderAggregate fromReplay = repository.loadFromEvents(streamId);
    assertEquals(fromSnapshot.calculateHash(), fromReplay.calculateHash());
}

Situation vécue

Une plateforme de commerce électronique d'entreprise traitant 50,000 commandes par jour a adopté la provenance d'événements pour son contexte de gestion des commandes. Chaque OrderAggregate a émis des événements tels que OrderCreated, ItemAdded, et PaymentProcessed. Pour gérer un trafic élevé, le système a créé des instantanés tous les 20 événements afin d'éviter de rejouer l'historique entier lors du paiement.

Lors du Black Friday, le système a connu des défauts d'"inventaire fantôme" où les paiements étaient capturés mais les niveaux de stock restaient inchangés. Une analyse de la cause profonde a révélé qu'en période de forte concurrence, la persistance des instantanés avait du retard par rapport aux ajouts d'événements de plusieurs millisecondes. Lors de la reconstruction des agrégats à partir de ces instantanés obsolètes, des événements ItemAdded récents ont été traités deux fois par une logique de gestion d'idempotence qui elle-même était boguée, entraînant des erreurs de calcul d'inventaire et des surventes.

Solution A: Relecture d'événement pure sans instantanés

Supprimez complètement le système d'instantané de l'architecture de test, forçant chaque test à rejouer des flux d'événements complets à partir du premier événement. Avantages : Élimine complètement les risques de corruption des instantanés ; simplifie les assertions de test en supprimant la logique de comparaison des instantanés ; garantit la cohérence mathématique puisque les agrégats calculent toujours à partir de la vérité absolue. Inconvénients : Le temps d'exécution des tests augmente de manière exponentielle à mesure que les agrégats mûrissent (1000+ événements), rendant les pipelines CI impraticables ; ne détecte pas les conditions de concurrence spécifiques à la production qui ne se manifestent que lors de la création des instantanés ; masque les goulets d'étranglement de performance qui impactent l'expérience utilisateur sous charge.

Solution B: Comparaison binaire manuelle

Les ingénieurs QA exportent manuellement des fichiers d'instantanés après l'exécution des tests, utilisant des outils de diff pour comparer la sérialisation binaire avant et après les opérations. Avantages : Offre une visibilité directe sur les changements de format de sérialisation ; détecte les incompatibilités de schéma entre les versions d'instantanés et le code agrégé actuel ; nécessite aucun investissement en infrastructures supplémentaires. Inconvénients : Ne peut pas automatiser la détection des conditions de concurrence entre les écritures d'instantanés et les ajouts d'événements ; l'erreur humaine dans la vérification est inévitable ; extrêmement fragile face à de petits changements de format tels que la précision des timestamps ou l'ordre des clés JSON ; impossible à exécuter à grande échelle dans des environnements CI/CD.

Solution C: Vérification de machine d'état basée sur les propriétés

Implémentez le Test Basé sur les Propriétés en utilisant jqwik pour générer des milliers de séquences d'événements valides aléatoires, forcer la création d'instantanés à des intervalles aléatoires, injecter des arrêts de processus via Byteman, et vérifier que les invariants des agrégats (comme "le montant payé est égal à la somme des prix des articles") sont respectés indépendamment de la méthode de reconstruction. Avantages : Explore automatiquement les cas limites impossibles à script de manière manuelle, tels que la création d'instantanés se produisant pendant un ajout d'événements en lot ; valide les motifs d'accès concurrents et les échecs de concurrence optimiste ; détecte les bogues déterministes par la vérification de propriétés mathématiques plutôt que par des tests basés sur des exemples. Inconvénients : Nécessite une expertise significative dans les concepts de programmation fonctionnelle et les cadres de test basés sur les propriétés ; sans un semis approprié, les échecs peuvent être non déterministes et difficiles à reproduire localement ; augmente le temps d'exécution CI de 15 à 20 minutes en raison des milliers de cas de test générés.

Solution choisie et justification

L'équipe a sélectionné la Solution C avec un semis déterministe (enregistré dans Git pour la reproductibilité). Ce choix a été imposé parce que la Solution A masquait le véritable bogue de production en supprimant complètement le mécanisme d'instantané, tandis que la Solution B ne parvenait pas à détecter la fenêtre de concurrence de 50 millisecondes entre la persistance des instantanés et les opérations d'ajout d'événements. Les tests basés sur les propriétés ont révélé que lorsque des instantanés étaient réalisés entre deux événements ItemAdded très rapprochés, la vérification de version de concurrence optimiste comparait incorrectement la version de l'instantané à la version du flux d'événements plutôt qu'à la version de l'agrégat, une subtilité logique visible uniquement sous des entrelacs spécifiques.

Résultat

Le cadre a détecté trois bogues critiques avant la sortie : incompatibilité de version d'instantané lors d'écritures concurrentes, vérifications d'idempotence manquantes dans le gestionnaire PaymentProcessed, et violations de frontière des agrégats où des événements ont fui entre des flux de locataires. CI exécute maintenant 5,000 séquences d'événements générées aléatoirement par build. Les incidents de production après déploiement liés à l'incohérence de l'état des commandes ont chuté de 94 %, et le temps moyen de détection de corruption d'instantané est passé de 4 heures à 30 secondes grâce à des alertes automatisées.

Ce que les candidats oublient souvent

Comment testez-vous des requêtes temporelles (voyage dans le temps) dans les systèmes basés sur des événements sans coupler les tests à l'heure de l'horloge système ou utiliser Thread.sleep() ?

Les candidats ont fréquemment recours à Thread.sleep() ou à la manipulation de l'horloge système, créant des tests instables qui échouent de manière intermittente dans les environnements CI. L'approche correcte consiste à injecter une abstraction Horloge (comme java.time.Clock en Java ou Microsoft.Extensions.Internal.ISystemClock en .NET).

Dans les tests, injectez une implémentation MutableClock ou FixedClock qui peut être avancée de manière déterministe. Lors de testes de l'état de commande à 15 heures hier, figez l'horloge à ce moment-là, exécutez des commandes, et affirmez contre l'état historique connu. Pour tester la logique d'expiration comme "les commandes s'annulent automatiquement après 24 heures", avancez simplement l'horloge injectée de 25 heures et vérifiez que l'événement OrderExpired prévu est émis sans véritable attente. Cela garantit que les tests s'exécutent en millisecondes tout en validant avec précision des règles commerciales temporelles complexes.

Pourquoi la suppression physique des données de test d'un magasin d'événements est-elle considérée comme un anti-modèle, et quelle stratégie d'isolement garantit des environnements de test propres sans violer les sémantiques en ajoutant uniquement ?

De nombreux candidats proposent de tronquer les flux d'événements ou de supprimer les agrégats dans les blocs de nettoyage, ne comprenant pas fondamentalement que les magasins d'événements sont en ajout uniquement par contrainte architecturale. La suppression physique viole les exigences d'audit et n'est souvent pas techniquement prise en charge (par exemple, EventStoreDB ne prend en charge que le tombstoning, pas la véritable suppression). De plus, les exécutions de tests concurrentes peuvent rencontrer des conflits de concurrence optimiste si les noms de flux sont recyclés.

La stratégie correcte utilise des conventions de nommage de flux uniques avec des UUID (par exemple, order-{testRunId}-{uuid}) combinées à des projections basées sur des catégories filtrées par métadonnées. Pour des suites d'intégration, utilisez TestContainers pour démarrer des instances de magasin d'événements isolées par classe de test. Pour des tests unitaires, utilisez des implémentations en mémoire comme le mode de stockage de documents léger de Marten ou le SimpleEventStore du Axon Framework. Ne jamais réutiliser les identifiants d'agrégats à travers les tests ; au lieu de cela, traitez le magasin d'événements comme une infrastructure immuable et limitez les requêtes à des tranches temporelles spécifiques ou préfixes de flux, ignorant efficacement les données provenant d'autres exécutions de tests.

Comment validez-vous que les migrations de schéma d'événements (upcasting) maintiennent la compatibilité ascendante lors de l'ajout de nouveaux champs requis aux types d'événements existants ?

Les candidats oublient souvent que la provenance des événements nécessite le versionnement des événements et l'upcasting (transformer des événements historiques aux versions actuelles du schéma). Lors de l'ajout d'un champ requis à OrderCreated V2, des milliers d'événements V1 existent déjà dans le magasin et doivent se désérialiser correctement.

La stratégie de test nécessite de maintenir un dépôt de maître doré de la véritable sérialisation historique d'événements JSON à partir de la production. Dans CI, désérialisez ces charges utiles historiques par la chaîne d'upcaster et vérifiez qu'elles se transforment en objets V2 valides avec des valeurs par défaut sensées (par exemple, dériver currencyCode de la configuration contextuelle plutôt que de le laisser nul). Implémentez des Tests d'Approbation pour détecter les changements non intentionnels de format de sérialisation. De plus, testez la sérialisation aller-retour : prenez un objet V2, le déscendez à V1 (si applicable), puis le rehaussez à V2, en affirmant l'égalité. Cela garantit que le nouveau code peut traiter des événements vieux de cinq ans sans perte de données, ce qui est critique puisque les événements représentent la piste de contrôle immuable et ne peuvent pas être "corrigés" rétroactivement dans les bases de données de production.