Odpowiedź na pytanie

Historia pytania

CRDT (Conflict-free Replicated Data Types) stały się dominującym rozwiązaniem do edytowania w sposób współdzielony i aplikacji mobilnych offline-first, zastępując tradycyjną OT (Operational Transformation) w ramach takich jak Yjs i Automerge. Wczesne strategie testowania opierały się na ręcznym przełączaniu trybu samolotowego, co nie potrafiło odtworzyć chaotycznych warunków sieciowych w rzeczywistych wdrożeniach mobilnych. Dyscyplina ewoluowała od prostego testowania funkcjonalnego do matematycznej weryfikacji właściwości zbieżności w różnych przeplatających się operacjach.

Problem

Tradycyjne testy zgodności ACID zakładają natychmiastową spójność, podczas gdy CRDT gwarantują jedynie silną ostateczną spójność, gdzie repliki mogą tymczasowo się różnić. Testowanie wymaga symulacji dowolnych podziałów sieciowych, walidacji, że równoczesne aktualizacje (np. jednoczesne wstawienia tekstu w identycznych pozycjach kursorów) scalają się bez utraty danych oraz zapewnienia, że zbieranie odpadów starych danych chroni zbieżność. Standardowe techniki mockujące nie wystarczają, ponieważ nie mogą uchwycić dziwactw serializacji na warstwie transportowej, efektów przesunięcia zegara w monitorowaniu przyczynowości lub zachowań tłumienia TCP.

Rozwiązanie

Zaprojektuj wielowarstwowy framework wykorzystujący Toxiproxy do wstrzykiwania podziału sieci, testowanie oparte na właściwościach (za pomocą fast-check lub Hypothesis) do generowania dowolnych sekwencji operacji oraz Monitor Zbieżności, który okresowo snapshotuje wszystkie repliki w celu weryfikacji równości stanu. Framework wykonuje operacje podczas kontrolowanego chaosu (losowe opóźnienia, utracone pakiety), a następnie weryfikuje matematyczne właściwości dołączenia-semilatu: komutatywność, asocjatywność i idempotencję funkcji łączenia.

const fc = require('fast-check');
const { setupPartitionedReplicas, healPartition } = require('./test-helpers');

test('Zbieżność CRDT w chaosie sieciowym', async () => {
  await fc.assert(
    fc.asyncProperty(
      fc.array(fc.tuple(fc.string(), fc.nat()), { minLength: 1, maxLength: 100 }),
      async (operations) => {
        const [replicaA, replicaB] = await setupPartitionedReplicas();
        
        // Zastosuj operacje z losowym opóźnieniem wstrzykniętym przez Toxiproxy
        await Promise.all([
          applyWithChaos(replicaA, operations.filter((_, i) => i % 2 === 0)),
          applyWithChaos(replicaB, operations.filter((_, i) => i % 2 === 1))
        ]);
        
        await healPartition();
        await waitForConvergence(5000); // limit 5s
        
        // Walidacja silnej ostatecznej spójności
        return JSON.stringify(replicaA.state) === JSON.stringify(replicaB.state);
      }
    ), 
    { numRuns: 1000, timeout: 60000 }
  );
});

Sytuacja z życia

Scenariusz

Start-up telemedyczny opracował aplikację mobilną dla lekarzy w terenie, wykorzystując React Native z Yjs CRDT do synchronizacji parametrów pacjentów na tabletach. Dwóch lekarzy edytujących ten sam zapis ciśnienia krwi pacjenta offline spowodowałoby, że jedna aktualizacja cicho nadpisałaby drugą po ponownym połączeniu, mimo że biblioteka twierdziła, że jest bezkonfliktowa. Problem trwał przez trzy tygodnie, aż kliniki wiejskie z przerywaną łącznością zgłosiły krytyczną utratę danych.

Opis problemu

Zespół odkrył, że ich niestandardowy wrapper wokół dokumentu Yjs niewłaściwie implementował rejestr LWW (Last-Write-Wins) dla pól numerycznych, zamiast używać PN-Counter (Positive-Negative Counter). Standardowe testy jednostkowe przeszły, ponieważ testowały scenariusze dla jednego użytkownika sekwencyjnie, podczas gdy testy integracyjne z wykorzystaniem symulowanych sieci synchronizowały się natychmiast bez uchwycenia okna 'opóźnionej synchronizacji'. Ta warunkowa rywalizacja występowała tylko wtedy, gdy obaj lekarze logowali się online w odległości kilku milisekund od siebie, co powodowało kolizję znaczników czasowych w warstwie synchronizacji w chmurze.

Rozwiązanie 1: Ręczne testowanie w laboratorium

Opracowano ręczne włączanie trybu samolotowego na fizycznych tabletach, wprowadzanie konfliktujących edycji do zapisów pacjentów, a następnie jednoczesne wyłączanie trybu samolotowego, aby wymusić synchronizację. To podejście wymagało skoordynowania wielu fizycznych urządzeń w kontrolowanym środowisku laboratoryjnym i polegało na ludzkich odruchach w synchronizacji czasów ponownego połączenia przez urządzenia.

Zalety: Metoda ta zapewniała maksymalny realizm, uchwycając rzeczywiste zachowanie radiowe urządzeń, dziwactwa odświeżania aplikacji w tle iOS i efekty optymalizacji baterii na czas ponownego połączenia WebSocket, których symulatory nie mogą odtworzyć.

Wady: Podejście to cierpiało na niepowtarzalność czasów z powodu opóźnień reakcji ludzkiej, wymagało drogich farm urządzeń, by wyjść poza dwa urządzenia, i nie mogło systematycznie testować specyficznych przypadków brzegowych, takich jak równoczesne ponowne połączenia w milisekundowych oknach.

Rozwiązanie 2: Deterministyczne testowanie jednostkowe z użyciem fałszywych zegarów

Programiści zaimplementowali testy jednostkowe Jest z fałszywymi timerami Sinon, aby ręcznie przestawiać zegar między operacjami CRDT, programowo symulując okresy offline bez rzeczywistego zaangażowania sieci. Testy te działały w izolowanych procesach Node.js, wykorzystując struktury danych w pamięci do reprezentowania stanu urządzenia mobilnego. To podejście oferowało pełną kontrolę nad środowiskiem wykonawczym oraz natychmiastową informację zwrotną podczas rozwoju.

Zalety: Wykonanie kończyło się w milisekundach, oferowało deterministyczną powtarzalność w debugowaniu specyficznych scenariuszy łączenia i nie wymagało infrastruktury sieciowej ani orkiestracji kontenerów.

Wady: Testy nie wychwyciły błędów serializacji w warstwie transportowej Protocol Buffers, ignorowały tłumienie TCP i zachowania ponownego uruchamiania oraz korzystały z magazynu mock, który znacznie różnił się od SQLite na rzeczywistych urządzeniach Android i iOS.

Rozwiązanie 3: Zautomatyzowane inżynieria chaosu z użyciem testów opartych na właściwościach

Zespół wdrożył klaster Docker Compose z Toxiproxy skonfigurowanym jako man-in-the-middle między emulatorami Android a serwerem synchronizacji Node.js, aby wstrzykiwać losowe opóźnienia, utratę pakietów i scenariusze podziału. Wykorzystali fast-check do generowania tysięcy dowolnych sekwencji operacji z różnymi charakterystykami czasowymi, podczas gdy niestandardowy monitor stanu pytał o stany replik poprzez interfejsy debugowania, aby wykryć naruszenia zbieżności. To ustawienie dokładnie modelowało chaotyczne warunki sieciowe wiejskich sieci komórkowych, a jednocześnie zapewniało pełną powtarzalność dzięki ziarniemu losowania.

Zalety: To umożliwiło powtarzalne inżynieria chaosu z precyzyjną kontrolą nad podziałami sieci, pozwoliło na generowanie przypadków brzegowych opartych na właściwościach, takich jak równoczesne inkrementacje, a następnie natychmiastowe leczenie podziału oraz uchwyciło prawdziwe zachowanie stosu sieciowego, w tym czasy oczekiwania na handshaking TLS oraz problemy z fragmentacją MTU.

Wady: Ustawienie wymagało znacznej wiedzy DevOps, aby utrzymać farmy emulatorów w kontenerach, wykonanie testów było wolniejsze niż testy jednostkowe z powodu narzutu Docker, a debugowanie błędów wymagało korelacji rozproszonych logów między Toxiproxy, emulatorami oraz serwerem synchronizacji.

Wybrana rozwiązanie i uzasadnienie

Zespół wybrał rozwiązanie 3 po tym, jak incydent produkcyjny dowiódł, że mocki rozwiązania 2 ukrywały krytyczny błąd, w którym wiadomości aktualizacji Yjs przekraczały ograniczenia MTU sieci komórkowej, powodując cichą fragmentację podczas synchronizacji. Mimo wysokich kosztów utrzymania, podejście inżynierii chaosu zapewniło niezbędną wierność do weryfikacji poprawki dotyczącej porównań zegarów wektorowych oraz zapewniło brak regresji w właściwościach zbieżności.

Wynik

Framework wykrył, że równoczesne aktualizacje z identycznymi znacznikami czasowymi systemu spowodowały, że rejestr LWW odrzucił prawidłowe dane medyczne, co skłoniło do migracji do Rejestrów wielowartościowych, scalanych na podstawie historii przyczynowej, a nie czasu zegarowego. Po wdrożeniu zautomatyzowane testy chaosu zidentyfikowały trzy dodatkowe przypadku brzegowe związane z akumulacją starych danych przy wysokiej częstotliwości podziału, redukując incydenty utraty danych o 99,7% i skracając średni czas detekcji z dni do minut.

Co często umyka kandydatom

Jak radzisz sobie z niedeterministycznością zbierania odpadów w oparciu na stanie CRDT, takich jak Replicated Growable Array (RGA), podczas testów pod kątem wycieków pamięci?

Wielu kandydatów zakłada, że zbieranie odpadów (usuwanie starych danych) jest deterministyczne i może być wyzwalane natychmiast po operacji usunięcia. W rzeczywistości zbieranie odpadów RGA zależy od osiągnięcia stabilności przyczynowej, co wymaga potwierdzenia, że wszystkie repliki zauważyły znacznik usunięcia poprzez dominację zegara wektorowego. Prawidłowe podejście testowe polega na wdrożeniu Detektora stabilności przyczynowej w swoim narzędziu, które śledzi granice zegara wektorowego we wszystkich węzłach, wyzwalając usunięcie odpadów tylko wtedy, gdy detektor potwierdzi wspólne uznanie. Testy muszą weryfikować nie tylko to, że zbieranie odpadów występuje, aby zapobiec wyciekom pamięci, ale także, że przedwczesne usunięcie zachowuje zbieżność — usunięcie odpadów zbyt wcześnie powoduje trwałą rozbieżność, która tylko ujawnia się po kilku godzinach w długoterminowych sesjach synchronizacji.

Dlaczego nie możesz użyć standardowych asercji równości (===) do weryfikacji zbieżności CRDT i jaką właściwość matematyczną musi zweryfikować Twoja ramka testowa?

Kandydaci często piszą asercje, takie jak expect(replicaA.state).toEqual(replicaB.state), co nie skutkuje dla CRDT, ponieważ wewnętrzne metadane, takie jak zegary wektorowe, historie operacji lub identyfikatory węzłów mogą różnić się, nawet gdy stany widoczne dla użytkownika się zbieżają. Musisz zweryfikować właściwość Least Upper Bound (LUB) semilatu poprzez potwierdzenie trzech aksjomatów matematycznych: komutatywność (merge(A, B) == merge(B, A)), asocjatywność (merge(A, merge(B, C)) == merge(merge(A, B), C)) oraz idempotencję (merge(A, A) == A). Twoja ramka testowa powinna wydobyć widoczny stan użytkownika po scaleniu, ignorując wewnętrzne metadane CRDT, a następnie potwierdzić, że wszystkie repliki osiągają identyczne stany LUB niezależnie od kolejności scalania lub historii podziału. To podejście zapewnia, że zbieżność jest matematycznie poprawna, a nie przypadkowo równa z powodu szczegółów implementacyjnych.

Jak testujesz dla aktywności zbieżności — gwarancji, że repliki ostatecznie synchronizują się — bez wprowadzania nieskończonych oczekiwań lub fałszywych pozytywów z powodu tymczasowej latencji sieciowej?

To wyzwanie reprezentuje problem zatrzymywania zastosowanego do systemów rozproszonych, gdzie kandydaci często implementują dowolne limity czasu, takie jak await sleep(5000), które tworzą nietrwałe testy lub fałszywe negatywy. Rozwiązanie implementuje Predykat Zbieżności z wykładniczym ponownym sprawdzaniem na podstawie kombinacji z Detektorem cicha sieci, który monitoruje metryki Toxiproxy lub zrzuty pakietów, aby potwierdzić, że nie ma żadnych operacji w drodze. Tylko wtedy, gdy sieć jest cicha, a wszystkie repliki zgłaszają identyczne granice zegara wektorowego, można zadeklarować zbieżność, używając adaptacyjnego limitu czasowego obliczonego na podstawie (operation_count * max_latency) + clock_skew_buffer. Jeśli zbieżność nie jest osiągnięta w tym obliczonym górnym limicie, test kończy się deterministycznie, a nie zawiesza, co zapewnia wyraźne sygnały do debugowania zablokowanych stanów.

Ustanowienie zautomatyzowanego frameworka testowego do walidacji silnej ostatecznej spójności i bezkonfliktowego uzgadniania w aplikacjach mobilnych offline-first z wykorzystaniem CRDT w symulowanych scenariuszach podziału sieci?