Odpowiedź na pytanie

Historia pytania

Źródło zdarzeń stało się istotnym wzorcem dla domen wymagających pełnych ścieżek audytowych i możliwości zapytań temporalnych. W przeciwieństwie do tradycyjnych architektur CRUD, przechowuje przejścia stanu jako niemutowalne zdarzenia w sklepie tylko do dodawania, rekonstruując stan agregatów poprzez odtwarzanie zdarzeń. Wraz z rosnącym przyjęciem w systemach finansowych i opiece zdrowotnej w latach 2010-tych, zespoły QA odkryły, że konwencjonalne strategie mockowania nie wychwytywały problemów integracyjnych pomiędzy agregatami a sklepami zdarzeń, szczególnie w odniesieniu do mechanizmów optymistycznej kontroli współbieżności i optymalizacji zrzutów.

Problem

Tradycyjne testy jednostkowe izolują agregaty przy użyciu zamockowanych repozytoriów, całkowicie omijając gwarancje spójności sklepu ze zdarzeniami. To pomija krytyczne tryby awarii: równoczesne dodawanie zdarzeń powodujące konflikty wersji strumienia, uszkodzone zrzuty (optymalizacje wydajności, które buforują stan agregatu) zwracające nieaktualne dane oraz nielegalne przejścia stanów, które występują tylko podczas określonych sekwencji zdarzeń. Bez zautomatyzowanej walidacji, te wady ujawniają się tylko w produkcji w warunkach wyścigu, prowadząc do niespójności danych, które są niemal niemożliwe do skorygowania retroaktywnie.

Rozwiązanie

Zaimplementuj framework testów integracyjnych używając TestContainers, aby uruchomić prawdziwe instancje EventStoreDB lub Apache Kafka. Przyjmij wzorzec Given-When-Then z niemutowalnymi budowniczymi zdarzeń, aby skonstruować złożone scenariusze. Zastosuj Testowanie Oparte na Właściwościach (przez jqwik lub ScalaCheck), aby generować losowe sekwencje zdarzeń i ich przeplatania, automatycznie weryfikując, że inwarianty agregatów utrzymują się niezależnie od historii. Wstrzyknięcie awarii sieciowych i opóźnień dyskowych za pomocą Toxiproxy w celu walidacji przywracania zrzutów po awariach. Upewnij się, że rekonstruowane agregaty z zrzutów odpowiadają pełnemu odtwarzaniu zdarzeń bajt po bajcie.

@Test
public void shouldMaintainInvariantAfterConcurrentEventAppends() {
    // Given: Agregat z zrzutem w wersji 10
    String streamId = "order-" + UUID.randomUUID();
    OrderAggregate aggregate = new OrderAggregate(streamId);
    aggregate.loadFromSnapshot(snapshotAtVersion10);
    
    // When: Symulacja równoczesnego dodawania PaymentProcessed
    List<DomainEvent> concurrentEvents = Arrays.asList(
        new ItemAdded("SKU-123", 2), // v11
        new PaymentProcessed(BigDecimal.valueOf(100.00)) // v12
    );
    
    // Then: Weryfikacja inwariantu (nie można zapłacić za przedmioty, które nie są w koszyku)
    assertThrows(IllegalStateException.class, () -> {
        aggregate.apply(concurrentEvents);
    });
    
    // Weryfikacja, że przywracanie zrzutu równa się pełnemu odtwarzaniu
    OrderAggregate fromSnapshot = repository.loadFromSnapshot(streamId);
    OrderAggregate fromReplay = repository.loadFromEvents(streamId);
    assertEquals(fromSnapshot.calculateHash(), fromReplay.calculateHash());
}

Sytuacja z życia

Przedsiębiorstwo e-commerce przetwarzające 50 000 zamówień dziennie przyjęło źródło zdarzeń dla swojego ograniczonego kontekstu zarządzania zamówieniami. Każdy OrderAggregate emitował takie zdarzenia jak OrderCreated, ItemAdded i PaymentProcessed. Aby obsłużyć duży ruch, system tworzył zrzuty co 20 zdarzeń, aby uniknąć ponownego odtwarzania całej historii podczas realizacji zamówienia.

Podczas Black Friday, system doświadczył "wirtualnych zapasów", gdzie płatności zostały zrealizowane, ale poziomy stanu pozostały niezmienione. Analiza przyczyn źródłowych ujawniła, że przy dużej współbieżności, trwałość zrzutu opóźniała się w stosunku do dodania zdarzeń o kilka milisekund. Podczas rekonstruowania agregatów z tych nieaktualnych zrzutów, ostatnie zdarzenia ItemAdded były przetwarzane podwójnie przez logikę obsługiwania idempotencji, co było samym w sobie błędne, prowadząc do błędów w obliczeniach zapasów i nadmiernych sprzedaży.

Rozwiązanie A: Czyste Odtwarzanie Zdarzeń bez Zrzutów

Całkowicie usuń mechanizm tworzenia zrzutów z architektury testowej, zmuszając każdy test do odtwarzania pełnych strumieni zdarzeń od pierwszego zdarzenia. Zalety: Całkowicie eliminuje ryzyko uszkodzenia zrzutów; upraszcza asercje testowe poprzez usunięcie logiki porównywania zrzutów; gwarantuje matematyczną spójność, ponieważ agregaty zawsze obliczają na podstawie absolutnej prawdy. Wady: Czas wykonania testów wzrasta wykładniczo w miarę dojrzewania agregatów (1000+ zdarzeń), co czyni cykle CI niepraktycznymi; nie wykrywa warunków wyścigu specyficznych dla produkcji, które pojawiają się tylko podczas tworzenia zrzutów; maskuje wąskie gardła wydajności, które wpływają na doświadczenia użytkowników pod obciążeniem.

Rozwiązanie B: Ręczne Porównanie Binarnych Danych

Inżynierowie QA ręcznie eksportują pliki zrzutów po wykonaniu testów, używając narzędzi diff do porównania binarnej serializacji przed i po operacjach. Zalety: Zapewnia bezpośrednią widoczność zmian formatu serializacji; wykrywa niezgodności schematów pomiędzy wersjami zrzutów a aktualnym kodem agregatów; nie wymaga dodatkowej inwestycji w infrastrukturę. Wady: Nie może automatycznie wykrywać warunków wyścigu pomiędzy zapisami zrzutów a dodawaniem zdarzeń; błąd ludzki w weryfikacji jest nieunikniony; niezwykle kruchy wobec drobnych zmian formatowania, takich jak precyzja znaczników czasowych lub kolejność kluczy JSON; niemożliwe do wykonania na dużą skalę w środowiskach CI/CD.

Rozwiązanie C: Weryfikacja Maszyn Stanowych Oparta na Właściwościach

Zaimplementuj Testowanie Oparte na Właściwościach używając jqwik, aby generować tysiące losowych, ważnych sekwencji zdarzeń, wymusić tworzenie zrzutów w losowych odstępach, wstrzykiwać zabicia procesów za pomocą Byteman i weryfikować, że inwarianty agregatów (jak "kwota opłacona równa sumie cen przedmiotów") utrzymują się niezależnie od metody rekonstrukcji. Zalety: Automatycznie bada przypadki brzegowe, które są niemożliwe do zapisania ręcznie, takie jak tworzenie zrzutów w trakcie dodawania wsadowych zdarzeń; weryfikuje wzorce dostępu współbieżnego i błędy optymistycznej współbieżności; wykrywa deterministyczne błędy poprzez weryfikację matematyczną właściwości zamiast testów opartych na przykładach. Wady: Wymaga znaczącej wiedzy w zakresie koncepcji programowania funkcyjnego i frameworków do testowania opartego na właściwościach; bez odpowiedniego konserwowania, awarie mogą być niedeterministyczne i trudne do powtórzenia lokalnie; zwiększa czas wykonania CI o 15-20 minut z powodu tysięcy generowanych przypadków testowych.

Wybrane rozwiązanie i uzasadnienie

Zespół wybrał Rozwiązanie C z deterministycznym konserwowaniem (przechowywanym w Gicie dla reprodukowalności). Ten wybór był uzasadniony, ponieważ Rozwiązanie A maskowało rzeczywisty błąd produkcji poprzez całkowite usunięcie mechanizmu zrzutów, podczas gdy Rozwiązanie B nie wykryło 50-milisekundowego okna wyścigu pomiędzy trwałością zrzutów a operacjami dodawania zdarzeń. Testowanie oparte na właściwościach ujawnili, że kiedy zrzuty były robione pomiędzy dwoma szybciutkimi zdarzeniami ItemAdded, sprawdzenie wersji współbieżności optymistycznej porównywało błędnie wersję zrzutu z wersją strumienia zdarzeń zamiast wersją agregatu, co było subtelnym błędem logicznym widocznym tylko pod konkretnymi przeplataniami.

Wynik

Framework wykrył trzy krytyczne błędy przed wydaniem: niedopasowanie wersji zrzutu podczas równoległych zapisów, brak sprawdzeń idempotencji w obsługiwaczu PaymentProcessed oraz naruszenia granic agregatów, gdzie zdarzenia przeciekały między strumieniami najemców. CI teraz wykonuje 5000 losowo wygenerowanych sekwencji zdarzeń na kompilację. Incydenty produkcyjne po wdrożeniu związane z niespójnością stanu zamówień spadły o 94%, a średni czas wykrywania uszkodzenia zrzutu zmniejszył się z 4 godzin do 30 sekund dzięki automatycznemu alertowi.

Co często umykają kandydaci

Jak testujesz zapytania temporalne (podróż w czasie) w systemach opartych na zdarzeniach bez łączenia testów z czasem zegara systemowego lub używania Thread.sleep()?

Kandydaci często sięgają po Thread.sleep() lub manipulują zegarem systemowym, co prowadzi do niestabilnych testów, które zawodzą nieregularnie w środowiskach CI. Prawidłowe podejście polega na wstrzykiwaniu abstrahencji Clock (takiej jak java.time.Clock w Javie lub Microsoft.Extensions.Internal.ISystemClock w .NET).

W testach wstrzyknij implementację MutableClock lub FixedClock, która może być przestawiana deterministycznie. Kiedy testujesz "jaki był stan zamówienia o 15:00 wczoraj", zatrzymaj zegar w tym momencie, wykonaj komendy i asercje na znanym historycznym stanie. Aby testować logikę wygasania, taką jak "zamówienia są automatycznie anulowane po 24 godzinach", po prostu przesuwaj wstrzyknięty zegar o 25 godzin i weryfikuj, że oczekiwane zdarzenie OrderExpired jest emitowane bez faktycznego czekania. To zapewnia, że testy wykonują się w milisekundach, a jednocześnie dokładnie weryfikują złożone reguły biznesowe związane z czasem.

Dlaczego fizyczne usuwanie danych testowych ze sklepu zdarzeń uważane jest za antywzorzec i jaka strategia izolacji zapewnia czyste środowiska testowe bez naruszania semantyki tylko do dodawania?

Wielu kandydatów proponuje obcinanie strumieni zdarzeń lub usuwanie agregatów w blokach sprzątania, zasadniczo nie rozumiejąc, że sklepy zdarzeń są tylko do dodawania ze względu na ograniczenia architektoniczne. Fizyczne usunięcie narusza wymogi audytowe i często nie jest technicznie wspierane (np. EventStoreDB wspiera tylko tombstonowanie, a nie prawdziwe usuwanie). Ponadto równoległe uruchomienia testów mogą doświadczać konfliktów optymistycznej współbieżności, jeśli nazwy strumieni są ponownie wykorzystywane.

Prawidłowa strategia wykorzystuje unikalne konwencje nazewnictwa strumieni przy użyciu UUID (np. order-{testRunId}-{uuid}) w połączeniu z projekcjami opartymi na kategoriach filtrowanymi przez metadane. Dla zestawów integracyjnych użyj TestContainers, aby uruchomić izolowane instancje sklepu ze zdarzeniami na klasę testową. Dla testów jednostkowych wykorzystaj implementacje pamięciowe, takie jak tryb lekkiego sklepu dokumentów Marten lub SimpleEventStore frameworka Axon. Nigdy nie używaj ponownie identyfikatorów agregatów w ramach testów; zamiast tego traktuj sklep ze zdarzeniami jako niezmienną infrastrukturę i ograniczaj zapytania do konkretnych przedziałów czasowych lub prefiksów strumienia, skutecznie ignorując dane z innych wykonanych testów.

Jak potwierdzasz, że migracje schematu zdarzeń (upcasting) zachowują zgodność wsteczną przy wprowadzaniu nowych wymaganych pól do istniejących typów zdarzeń?

Kandydaci często pomijają, że źródło zdarzeń wymaga wersjonowania zdarzeń i upcastingu (przekształcania historycznych zdarzeń do aktualnych wersji schematu). Przy dodawaniu wymaganego pola do OrderCreated V2, tysiące zdarzeń V1 już istnieje w sklepie i muszą być poprawnie deserializowane.

Strategia testowa wymaga prowadzenia repozytorium złotej master faktycznych zserializowanych historycznych zdarzeń JSON z produkcji. W CI, deserializuj te historyczne ładunki przez łańcuch upcastera i weryfikuj, że są przekształcane w ważne obiekty V2 z sensownymi wartościami domyślnymi (np. ustalając currencyCode z kontekstowej konfiguracji zamiast pozostawić je jako null). Wdrażaj Testy Aprobacyjne, aby wykryć niezamierzone zmiany formatu serializacji. Dodatkowo, testuj serializację jednokierunkową: weź obiekt V2, przekształć go do V1 (jeśli to możliwe), a następnie ponownie przekształć do V2, asercjonując równość. To zapewnia, że nowy kod może przetwarzać pięcioletnie zdarzenia bez utraty danych, co jest krytyczne, ponieważ zdarzenia reprezentują niezmienny ślad audytowy i nie mogą być "patchowane" retroaktywnie w bazach danych produkcyjnych.